勾配消失問題とは

勾配消失(vanishing gradients)問題は、ディープラーニング、特に深いニューラルネットワークの訓練において発生する問題の一つです。

ニューラルネットワークを訓練する際には、誤差逆伝播法が用いられます。この逆伝播では、出力層から入力層に向かって誤差の勾配(損失関数の微分)を伝播させ、それに基づいて各層のパラメータ(重みとバイアス)を更新します。

しかしながら、深いネットワーク(多くの層を持つネットワーク)で学習を行うとき、出力層から始まる勾配が、逆伝播の過程で層を経るごとにどんどんと小さくなることがあります。これが「勾配消失」問題です。この結果、ネットワークの前方(入力層に近い部分)のパラメータはほとんど更新されなくなり、適切に学習することが難しくなります。

この問題に対するいくつかの解決策が提案されています。それらには、ReLU(Rectified Linear Unit)やその派生形の活性化関数の使用、重みの初期化手法の改善(例えば He initialization や Xavier initialization)、またはより洗練された最適化アルゴリズム(例えば Adam)の利用などが含まれます。

また、長短期記憶(LSTM)やゲート付き再帰ユニット(GRU)などの特殊なネットワークアーキテクチャも、特に再帰的なニューラルネットワーク(RNN)における勾配消失問題を緩和するために開発されました。