深属学習

SPARSEMAXの活性化関数

目次 1. SPARSEMAX活性化関数の概要 1.1 SPARSEMAX活性化関数とは 1.2 SPARSEMAX関数 2. 実験 2.1 ライブラリインポート 2.2 データ読み込み 2.3 データ加工 2.4 SPARSEMAXの活性化関数を作成 2.5 RELUの活性化関数を作成 2.6 まとめ 関連記事:活性化関数のまとめ 1. SPARSEMAX活性化関数の概要 1.1 SPARSEMAX活性化関数とは SPARSEMAXとは、ソフトマックスに似たが、スパース確率を出力できる新しい活性化関数です。SPARSEMAX損失関数は、滑らかで凸状のロジスティック損失のスパースアナログです。 1.2 SPARSEMAX関数 softmaxとsparsemaxの比較 実験の結果 SPARSEMAXは、一般的なアクティベーションに比較して優れたパフォーマンスになります。 sparsemaxは、ラベルの数が多い問題に適しているようです。 SPARSEMAXの論文:From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification. https://arxiv.org/abs/1602.02068 TensorFlowの資料:https://www.tensorflow.org/addons/api_docs/python/tfa/activations/sparsemax PyTorchの資料:https://github.com/KrisKorrel/sparsemax-pytorch   2. 実験 データセット:CIFAR-10 は、32×32 のカラー画像からなるデータセットで、その名の通り10クラスあります。全体画像数は60000件となり、そのうち50000件が訓練用データ、残り10000件がテスト用データに分けます。 モデル:SPARSEMAXの活性化関数のモデル …

SPARSEMAXの活性化関数 Read More »

RRELUの活性化関数

目次 1. RRELU活性化関数の概要 1.1 RRELU活性化関数とは 1.2 RRELU関数 2. 実験 2.1 ライブラリインポート 2.2 データ読み込み 2.3 データ加工 2.4 RRELUの活性化関数を作成 2.5 RELUの活性化関数を作成 2.6 まとめ 関連記事:活性化関数のまとめ 1. RRELU活性化関数の概要 1.1 RRELU活性化関数とは RRELUとは、randomized leaky rectified linear units の略称で、ランダム化されたReLU関数です。RRELUは、活性化関数の負の部分にゼロ以外の勾配を組み込むことで、一貫して結果の改善を期待されて導入されました。最初にはKaggleNDSBコンペで使用されました。大規模な画像分類タスクでは、パフォーマンスはReLUよりもはるかに優れていると言われています。 1.2 RRELU関数 乱数はサンプリングされます。 RRELUの論文:Empirical Evaluation of Rectified Activations in Convolution Network https://arxiv.org/abs/1505.00853   TensorFlowの資料: https://www.tensorflow.org/addons/api_docs/python/tfa/activations/rrelu?hl=ja   PyTorchの資料: https://pytorch.org/docs/stable/generated/torch.nn.RReLU.html   2. 実験 データセット:CIFAR-10 は、32×32 …

RRELUの活性化関数 Read More »

TabNet(表形式データ向けの深層学習)

目次 1.TabNetの概要 1.1TabNetとは 1.2TabNetの手法 2.TabNetの実験 2.1環境構築 2.2データセット 2.3 TabNetモデル 2.4XGBoost 3.まとめ   1.TabNetの概要 1.1TabNetとは TabNetとは、Google Researchで発表された表形式データ向けの新しい深層学習です。TabNetは、シーケンシャルアテンションメカニズムを使用して、各決定ステップで処理する意味がある特徴量を選択します。インスタンスごとの特徴選択により、モデルの容量が最も顕著な特徴に完全に使用されるため、効率的な学習が可能になります。また、選択マスクの視覚化により、より解釈しやすい意思決定が可能になります。TabNetが、さまざまなドメインの表形式のデータセット全体で以前の作業よりも優れていると言われています。   1.2TabNetの手法 TabNetは、推論のために入力特徴のサブセットを処理することに焦点を当てた複数の決定ブロックを利用しています。 マスクされた自己監視学習による教師なし表現学習は、教師あり学習タスクのエンコーダーモデルを改善します。 TabNetエンコーダー。機能トランスフォーマー、注意深いトランスフォーマー、および機能マスキングで構成されています。分割ブロックは、処理された表現を分割して、後続のステップの注意深いトランスフォーマーと全体の出力で使用します。各ステップで、特徴選択マスクはモデルの機能に関する解釈可能な情報を提供し、マスクを集約してグローバルな特徴の重要な属性を取得できます。 論文:TabNet: Attentive Interpretable Tabular Learning https://arxiv.org/abs/1908.07442   Github: google-research/tabnet/ https://github.com/google-research/google-research/tree/master/tabnet   2.TabNetの実験 環境:Google Colab データセット:frmgham  Framingham Studyは、男性と女性の心血管疾患の発症に影響を与える体質的および環境的要因の縦断的調査です。 モデル:TabNet vs XGBoost モデル評価:Accuracy   2.1環境構築 TabNetのライブラリをインストールします。 !pip install pytorch-tabnet   ライブラリのインポート import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns   …

TabNet(表形式データ向けの深層学習) Read More »

NOVOGRAUDの最適化アルゴリズムの解説

  目次 1 NOVOGRAUD最適化アルゴリズムの概要 1.1 NOVOGRAUD最適化アルゴリズムとは 1.2 NOVOGRAUD定義 2. 実験 2.1 データロード 2.2 データ前処理 2.3 NOVOGRAUD最適化アルゴリズムのモデル作成 2.4 Adam最適化アルゴリズムのモデル作成 2.5 まとめ 記事:最適化アルゴリズムのまとめ 1 NOVOGRAUD最適化アルゴリズムの概要 1.1 NOVOGRAUD最適化アルゴリズムとは、層ごとの勾配正規化と分離された重み減衰を使用した適応確率的勾配降下法です。論文より、画像分類、音声認識、機械翻訳、言語モデリングのためのニューラルネットワークの実験では、SGD、Adam、AdamWと同等かそれ以上のパフォーマンスの結果になりました。今回私達も評価とサンプルコードを紹介していきます。 NOVOGRAUDの特徴: 学習率と重みの初期化の選択に適しています 大規模なバッチ設定でうまく対応できます。 Adamに対しての半分のメモリフットプリントになります。   アルゴリズム: NovoGradは3つのアイデアを組み合わせています。 層ごとの2次モーメントを使用します。 層ごとの2次モーメントで正規化された勾配を使用して1次モーメントを計算します 重量減衰を切り離します。 論文:Training Deep Networks with Stochastic Gradient Normalized by Layerwise Adaptive Second Moments https://arxiv.org/pdf/1905.11286.pdf   Tensorflow: https://www.tensorflow.org/addons/api_docs/python/tfa/optimizers/NovoGrad?hl=ja   PyTorch: https://pytorch-optimizer.readthedocs.io/en/latest/_modules/torch_optimizer/novograd.html   …

NOVOGRAUDの最適化アルゴリズムの解説 Read More »

LISHTの活性化関数

  目次 1. LISHT活性化関数の概要 1.1 LISHT活性化関数とは 2. 実験 2.1 ライブラリインポート 2.2 データ読み込み 2.3 データ加工 2.4 LISHTの活性化関数を作成 2.5 Reluの活性化関数を作成 2.6 まとめ 関連記事:活性化関数のまとめ 1. LISHT活性化関数の概要 1.1 LISHT活性化関数とは LISHT活性化関数とはLinearly Scaled Hyperbolic Tangent の略称です。ReLUとSwishは、大きな負の入力値を利用できず、勾配消失問題に悩まされる可能性があります。LiSHT活性化関数は、非線形双曲線タンジェント(Tanh)関数を線形関数でスケーリングし、勾配消失問題を解決します。 論文より、分類実験は、ベンチマークIris、MNIST、CIFAR10、CIFAR100、およびtwitter140データセットに対して実行され、より高速な収束とより高いパフォーマンスの結果になりました。多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、および長短期記憶(LSTM)のようなリカレントニューラルネットワークを含む3つの異なるタイプのニューラルネットワークで、優れたパフォーマンスの向上が見られます。 LISHTの論文:LiSHT: Non-Parameteric Linearly Scaled Hyperbolic Tangent Activation Function for Neural Networks https://arxiv.org/pdf/1901.05894.pdf   TensorFlowの資料: https://www.tensorflow.org/addons/api_docs/python/tfa/activations/lisht?hl=ja   2. 実験 データセット:CIFAR-10 は、32×32 のカラー画像からなるデータセットで、その名の通り10クラスあります。全体画像数は60000件となり、そのうち50000件が訓練用データ、残り10000件がテスト用データに分けます。 モデル:LISHTの活性化関数のモデル vs Reluの活性化関数のモデル …

LISHTの活性化関数 Read More »

LAMBの最適化アルゴリズムの解説

  目次 1 LAMB最適化アルゴリズムの概要 1.1 LAMB最適化アルゴリズムとは 1.2 LAMB定義 2. 実験 2.1 データロード 2.2 データ前処理 2.3 LAMB最適化アルゴリズムのモデル作成 2.4 Adam最適化アルゴリズムのモデル作成 2.5 まとめ 記事:最適化アルゴリズムのまとめ   1 LAMB最適化アルゴリズムの概要 1.1 LAMB最適化アルゴリズムとは LAMBは、LARSに触発されて、大きなミニバッチを使用してディープニューラルネットワークのトレーニングを加速するための手法です。 LAMBの適応性は2つあります。(i)ADAMで使用される2次モーメントの平方根に関する次元ごとの正規化、および(ii)層ごとの適応性によって得られる層ごとの正規化です。 LAMBのアルゴリズムは下記になります。 以下の表は、ResNet-50ネットワークを使用したImageNetデータセットの実験結果です。 LAMBは高精度を実現できます。 論文: https://arxiv.org/abs/1904.00962 Tensorflow: https://www.tensorflow.org/addons/api_docs/python/tfa/optimizers/LAMB?hl=ja PyTorch: https://github.com/cybertronai/pytorch-lamb/blob/master/pytorch_lamb/lamb.py   2. 実験 データセット:cifar10: 60000枚の32ピクセルx32ピクセルの画像。10クラス([0] airplane (飛行機)、[1] automobile (自動車)、[2] bird (鳥)、[3] cat (猫)、[4] deer (鹿)、[5] dog (犬)、[6] frog (カエル)、[7] …

LAMBの最適化アルゴリズムの解説 Read More »

HARDSHRINKの活性化関数

目次 1. HARDSHRINK活性化関数の概要 1.1 HARDSHRINK活性化関数とは 1.2 HARDSHRINK関数 2. 実験 2.1 ライブラリインポート 2.2 データ読み込み 2.3 データ加工 2.4 HARDSHRINKの活性化関数を作成 2.5 Reluの活性化関数を作成 2.6 まとめ 関連記事:活性化関数のまとめ 1. HARDSHRINK活性化関数の概要 1.1 HARDSHRINK活性化関数とは HARDSHRINK活性化関数とは入力データと出力データは原点の周りは、0だがそれ以外では値のある関数です。下記の関数になります。 関数 の形をしており、変数lower/upperのデフォルト値は0.5です。 1.2 HARDSHRINK関数 TensorFlowの関数 tfa.activations.hardshrink( x: tfa.types.TensorLike, lower: tfa.types.Number = -0.5, upper: tfa.types.Number = 0.5 ) -> tf.Tensor TensorFlowの資料: https://www.tensorflow.org/addons/api_docs/python/tfa/activations/hardshrink?hl=ja   PyTorchの資料: https://pytorch.org/docs/stable/generated/torch.nn.Hardshrink.html   2. 実験 データセット:CIFAR-10 …

HARDSHRINKの活性化関数 Read More »

SPOCUの活性化関数

目次 1. SPOCU活性化関数の概要 1.1 SPOCU活性化関数とは 1.2 SPOCU関数 2. 実験 2.1 ライブラリインポート 2.2 データ読み込み 2.3 データ加工 2.4 SPOCUの活性化関数を作成 2.5 Reluの活性化関数を作成 2.6 まとめ 関連記事:活性化関数のまとめ   1. SPOCU活性化関数の概要 1.1 SPOCU活性化関数とは SPOCU活性化関数とは scaled polynomial constant unit activationの略称であり、物理学をベースとしているパーコレーションベースの活性化関数です。統計物理学と数学のパーコレーション理論は、スポンジのような媒質に水がしみこむ現象のモデルとして言われています。それ以外にも、パーコレーション理論とモンテカルロシミュレーションの組み合わせる事によって、ハードウェアのアモルファスシステムでのイオン移動と電子伝達をシュミレートできると言われています。 SPOCU活性化関数は、ウィスコンシン診断乳がん(WDBC)データセットや大規模データセットMNISTなど、大規模データセットと小規模データセットの両方でSPOCUの検証に成功しました。 SPOCUの論文 https://link.springer.com/article/10.1007/s00521-020-05182-1 1.2 SPOCU関数 ライブラリのインストール python3 -m pip install spocu Tensorflow from spocu.spocu_tensorflow import SPOCU   alpha = 3.0937 beta = 0.6653 …

SPOCUの活性化関数 Read More »

SHARPNESS-AWARE-MINIMIZATION (SAM)

  目次 1. SAMの概要 1.1 SAMとは 2. 実験 2.1 環境構築 2.2 データセットの準備 2.3 SAM関数 2.4 ResNet20 モデル 2.5 まとめ 1. SAMの概要 1.1 SAMとは SAMはSHARPNESS-AWARE MINIMIZATIONの略称で、Google Researchで深層学習ネットワークの損失を減らす新しい効果的な方法です。損失ランドスケープのジオメトリと一般化を接続する以前の作業によって作成されました。 資料:https://github.com/google-research/sam SAMは、多くの画像データセットベンチマークの最新モデルと比較して損失を改善できます。 左はSGDでトレーニングされたResNetが収束する鋭い最小値です。 右はSAMでトレーニングされたResNetが収束する広い最小値です。SAMは、広く研究されているさまざまなコンピュータービジョンタスク全体でモデルの一般化能力を向上させます。 単にトレーニング損失値LS(w)が低いパラメーター値wを探すのではなく、近隣全体のトレーニング損失値が均一に低いパラメーター値を探します。 論文:SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION https://openreview.net/pdf?id=6Tm1mposlrM   2. 実験 環境:Google Colab(TPU) データセット:CIFAR-10 は6万枚の10種類の「物体カラー写真」(乗り物や動物など)の画像データセット モデル:SAM、ResNet20   2.1 環境構築 Githubのプロジェクトをダウンロードします。 !git clone https://github.com/sayakpaul/Sharpness-Aware-Minimization-TensorFlow ライブラリのインポート import …

SHARPNESS-AWARE-MINIMIZATION (SAM) Read More »

COCOBの最適化アルゴリズム

  目次 1 . COCOB最適化アルゴリズムの概要 1.1 COCOB最適化アルゴリズムとは 1.2 COCOB定義 2. 実験 2.1 データロード 2.2 データ前処理 2.3 COCOB最適化アルゴリズムのモデル作成 2.4 Adam最適化アルゴリズムのモデル作成 2.5 まとめ   記事:最適化アルゴリズムのまとめ   1.  COCOB最適化アルゴリズムの概要 1.1 COCOB最適化アルゴリズムとは COCOB最適化アルゴリズムはCOntinuous COin Betting (COCOB)の略称で学習率が要らない最適化アルゴリズムです。学習率を適応させたり、目的関数の想定された曲率を使用したりすることはありません。最適化プロセスをコイントスゲームにします。   コイントスゲーム ギャンブラーは初期金額から始まります。各ラウンドtで、彼はコイントスゲームの結果に賭けます。ギャンブラーは、表(ヘッド)または裏(​テイル)のいずれかに任意の金額を賭けることができます。 しかし、彼は追加のお金を借りることは許されていません。 彼が負けた場合、彼は賭けた金額を失います。 彼が勝った場合、彼は賭けた金額を取り戻し、それに加えて、彼は報酬と同じ金額を受け取ります。ラウンドt終了時のギャンブラーの富と、ギャンブラーの報酬にします。 上記のギャンブルアルゴリズムを使用して、劣勾配にアクセスすることにより、滑らかでない目的関数の最小化を見つけました。 COCOBは0から始まり、時間の経過とともに指数関数的に増加します 反対の符号の勾配に達するまで、wtを繰り返します。 ギャンブルの観点からは、これは明らかです。同じ結果のシーケンスがあるため、富は指数関数的に増加し、それによって富が増加し、賭けが増加します。   論文:https://arxiv.org/abs/1705.07795 Tensorflow: https://www.tensorflow.org/addons/api_docs/python/tfa/optimizers/COCOB   2. 実験 データセット:cifar10: 60000枚の32ピクセルx32ピクセルの画像。10クラス([0] airplane (飛行機)、[1] automobile (自動車)、[2] bird …

COCOBの最適化アルゴリズム Read More »