Ruolo nelle reti neurali

Nelle prime architetture di rete, la funzione sigmoide era la scelta primaria per trasformare l’input in una probabilità compresa tra 0 e 1. Questo facilitava l’apprendimento del gradiente tramite backpropagation.

La sua derivata semplice ha reso il calcolo della discesa del gradiente più efficiente, soprattutto nei primi algoritmi di ottimizzazione come la discesa stocastica.

Oggi, sebbene spesso sostituita da funzioni ReLU per problemi di saturazione, la sigmoide è ancora preziosa in output layer binari e nella modellazione di probabilità di classificazione.

Problemi e soluzioni

  • Saturazione: quando |x| è grande, la derivata tende a zero, rallentando l’apprendimento. Tecniche come il batch normalization mitigano questo effetto.
  • Efficienza computazionale: l’esponenziale può essere calcolato con funzioni log‑linear per ridurre i costi di CPU/GPU.