一日一分のE資格問題にチャレンジ!本日のお題は「AdaGrad」
問題
[問題]
以下のうち、AdaGradについて正しいものはどれか。
答え
C
解説
AdaGrad(Adaptive Gradient)は、確率的勾配降下法(SGD)の派生手法の一つです。AdaGradは、学習率をデータセット内の各パラメータに適応的に調整することで、個々のパラメータに対して最適な学習率を選択します。
通常のSGDでは、全てのパラメータに同じ学習率を適用しますが、AdaGradは各パラメータに異なる学習率を適用することが特徴です。具体的には、過去の勾配の二乗和(累積二乗勾配)を使用して、各パラメータの学習率を自動的に調整します。
AdaGradは、過去の勾配の情報を保持することで、パラメータごとに学習率を調整します。より大きな勾配を持つパラメータには小さな学習率を適用し、より小さな勾配を持つパラメータには大きな学習率を適用します。これにより、急速に変化するパラメータに対してはより小さなステップを、緩やかに変化するパラメータに対してはより大きなステップを取ることができます。
AdaGradの利点は、勾配の大きさに依存して適応的に学習率を調整することであり、学習の収束性と安定性を向上させることができます。ただし、一度の学習ステップで過去の全ての勾配を考慮するため、長期間の学習において学習率が縮小しすぎてしまうという欠点もあります。
AdaGradにおけるパラメータθの更新式は以下の通りです。
ηは学習率、εは0での割り算を防ぐための小さい定数です。したがって、(C)が正しい記述です。
E資格の勉強方法はコチラも参考にしてみてください。
コメント