Skip to content

Latest commit

 

History

History
11 lines (9 loc) · 757 Bytes

Vanishing Gradient.md

File metadata and controls

11 lines (9 loc) · 757 Bytes

Patlayan gradyanların tersidir. Gradyanların çok küçük hale geldiği bir durumu ifade eder.

Ortaya Çıkışı

  • Sigmoid veya tanh gibi bazı aktivasyon fonksiyonları, belirli aralıklarda gradyanları çok küçültme eğilimindedir.
  • Derin modeller, daha fazla katmandan oluştuğu için patlayan gradyanlar görülme olasılığı daha yüksektir.
  • RNN gibi yapılar, uzun süreli bağlantılar içerdiğinde, gradyanların küçülmesine yol açabilir.

Engelleme Yöntemleri

  • Weight İnitalization: Ağırlıkların rastgele başlatılması (He veya Xavier initialization...) vanishing gradient oluşma olasılığını azaltabilir.
  • Gradient Clipping: Gradyanlar, belirli bir eşik değerden büyükse kırpılır.
  • Skip Connections: