TanhExpの活性化関数

目次
1. TanhExp活性化関数の概要
1.1 TanhExp活性化関数とは
1.2 TanhExp関数
2. 実験
2.1 ライブラリインポート
2.2 データ読み込み
2.3 データ加工
2.4 TanhExpの活性化関数を作成
2.5 Reluの活性化関数を作成
2.6 まとめ

記事：活性化関数のまとめ

1. TanhExp活性化関数の概要

1.1 TanhExp活性化関数とは

TanhExpはTanh Exponential Activation Functionの略称です。名前からわかるようにtanhとexpを使います。TanhExpの定義はf(x) = x tanh(e^x)である。様々なデータセットやネットワークモデルに対してTanhExpのシンプルさ、効率性、ロバスト性を実証し、TanhExpは収束速度と精度の両方で同等のものを凌駕することを示した。また、ノイズを追加したり、データセットを変更したりしても、TanhExpの挙動は安定している。ネットワークのサイズを大きくしなくても、少数の学習エポックと余分なパラメータを追加することなく、TanhExpによって軽量ニューラルネットワークの能力を向上させることができることを示す。

論文：TanhExp: A Smooth Activation Function

with High Convergence Speed for

Lightweight Neural Networks

https://arxiv.org/abs/2003.09855

1.2 TanhExp関数

def tanhexp(x):

return x * tf.math.tanh(tf.math.exp(x))

2. 実験

データセット：CIFAR-10 は、32×32 のカラー画像からなるデータセットで、その名の通り10クラスあります。全体画像数は60000件となり、そのうち50000件が訓練用データ、残り10000件がテスト用データに分けられます。

モデル：TanhExpの活性化関数のモデル vs Reluの活性化関数のモデル

モデル評価：Accuracy

2.1 ライブラリインポート

import tensorflow as tf

from keras.datasets import cifar10

import matplotlib.pyplot as plt

from tensorflow import keras

from tensorflow.keras import layers

2.2 データ読み込み

Tensorflowのデータセットを読み込みます。

# Splite train and test data

(X_train, y_train), (X_test, y_test) = cifar10.load_data()

# setting class names

class_names=[‘airplane’, ‘automobile’ ,’bird’, ‘cat’, ‘deer’, ‘dog’, ‘frog’, ‘horse’, ‘ship’, ‘truck’]

データを確認します。

c # show sample image

def show_img (img_no):

plt.imshow(X_train[img_no])

plt.grid(False)

plt.xticks([])

plt.yticks([])

plt.xlabel(“Label: ” + str(y_train[img_no][0])+ ” ” + class_names[y_train[img_no][0]])

plt.show()

show_img(1)

2.3 データ加工

データを正規化します。

# Normalize

X_train=X_train/255.0

X_test=X_test/255.0

print(‘X_train shape:’, X_train.shape)

print(‘X_test shape:’, X_test.shape)

X_train shape: (50000, 32, 32, 3)

X_test shape: (10000, 32, 32, 3)

2.4 TanhExpの活性化関数を作成

import numpy as np

def tanhexp(x):

return x * tf.math.tanh(tf.math.exp(x))

#from keras.models import Sequential

#from keras.layers import Conv2D, MaxPool2D, Flatten, Dense

model = keras.Sequential()

model.add(layers.Conv2D(filters=32,

kernel_size=(3, 3),

activation=tanhexp,

input_shape=(32, 32, 3)))

model.add(layers.MaxPool2D())

model.add(layers.Conv2D(filters=64,

kernel_size=(3, 3),

activation=tanhexp))

model.add(layers.MaxPool2D())

model.add(layers.Flatten())

model.add(layers.Dense(10, activation=’softmax’))

model.compile(optimizer=’adam’,

loss=’categorical_crossentropy’,

metrics=[‘accuracy’])

print(model.summary())

Model: “sequential”

_________________________________________________________________

Layer (type) Output Shape Param #

=================================================================

conv2d (Conv2D) (None, 30, 30, 32) 896

_________________________________________________________________

max_pooling2d (MaxPooling2D) (None, 15, 15, 32) 0

_________________________________________________________________

conv2d_1 (Conv2D) (None, 13, 13, 64) 18496

_________________________________________________________________

max_pooling2d_1 (MaxPooling2 (None, 6, 6, 64) 0

_________________________________________________________________

flatten (Flatten) (None, 2304) 0

_________________________________________________________________

dense (Dense) (None, 10) 23050

=================================================================

Total params: 42,442

Trainable params: 42,442

Non-trainable params: 0

_________________________________________________________________

None

モデルを学習します。

model.compile(optimizer=’adam’,

loss=tf.keras.losses.SparseCategoricalCrossentropy(),

metrics=[‘accuracy’])

history = model.fit(X_train, y_train, batch_size=100,

epochs=50, verbose=1,

validation_data=(X_test, y_test))

Epoch 1/50

500/500 [==============================] – 35s 9ms/step – loss: 1.8011 – accuracy: 0.3577 – val_loss: 1.3245 – val_accuracy: 0.5382

…

Epoch 50/50

500/500 [==============================] – 4s 8ms/step – loss: 0.3713 – accuracy: 0.8719 – val_loss: 1.2288 – val_accuracy: 0.6849

モデル評価

# plotting the metrics

plt.plot(history.history[‘accuracy’])

plt.plot(history.history[‘val_accuracy’])

plt.title(‘model accuracy’)

plt.ylabel(‘accuracy’)

plt.xlabel(‘epoch’)

plt.title(“‘CNN: activation=’TANHEXP'”)

plt.legend([‘train’, ‘test’], loc=’lower right’)

plt.show()

from sklearn.metrics import accuracy_score

y_pred = model.predict_classes(X_test)

acc_score = accuracy_score(y_test, y_pred)

print(‘Accuracy on test dataset:’, acc_score)

Accuracy on test dataset: 0.6849

2.5 Reluの活性化関数を作成

from keras.models import Sequential

from keras.layers import Conv2D, MaxPool2D, Flatten, Dense

model2 = Sequential()

model2.add(Conv2D(filters=32,

kernel_size=(3, 3),

activation=’relu’,

input_shape=(32, 32, 3)))

model2.add(MaxPool2D())

model2.add(Conv2D(filters=64,

kernel_size=(3, 3),

activation=’relu’))

model2.add(MaxPool2D())

model2.add(Flatten())

model2.add(Dense(10, activation=’softmax’))

model2.compile(optimizer=’adam’,

loss=’categorical_crossentropy’,

metrics=[‘accuracy’])

print(model2.summary())

Model: “sequential_1”

_________________________________________________________________

Layer (type) Output Shape Param #

=================================================================

conv2d_2 (Conv2D) (None, 30, 30, 32) 896

_________________________________________________________________

max_pooling2d_2 (MaxPooling2 (None, 15, 15, 32) 0

_________________________________________________________________

conv2d_3 (Conv2D) (None, 13, 13, 64) 18496

_________________________________________________________________

max_pooling2d_3 (MaxPooling2 (None, 6, 6, 64) 0

_________________________________________________________________

flatten_1 (Flatten) (None, 2304) 0

_________________________________________________________________

dense_1 (Dense) (None, 10) 23050

=================================================================

Total params: 42,442

Trainable params: 42,442

Non-trainable params: 0

_________________________________________________________________

None

モデルを学習します。

model2.compile(optimizer=’adam’,

loss=tf.keras.losses.SparseCategoricalCrossentropy(),

metrics=[‘accuracy’])

history2 = model2.fit(X_train, y_train, batch_size=100,

epochs=50, verbose=1,

validation_data=(X_test, y_test))

Epoch 1/50

500/500 [==============================] – 3s 6ms/step – loss: 1.8103 – accuracy: 0.3455 – val_loss: 1.3376 – val_accuracy: 0.5236

…

Epoch 50/50

500/500 [==============================] – 3s 5ms/step – loss: 0.4076 – accuracy: 0.8583 – val_loss: 1.1002 – val_accuracy: 0.6913

# plotting the metrics

plt.plot(history2.history[‘accuracy’])

plt.plot(history2.history[‘val_accuracy’])

plt.title(‘model accuracy’)

plt.ylabel(‘accuracy’)

plt.xlabel(‘epoch’)

plt.title(“‘CNN: activation=’RELU'”)

plt.legend([‘train’, ‘test’], loc=’lower right’)

plt.show()

from sklearn.metrics import accuracy_score

y_pred = model2.predict_classes(X_test)

acc_score = accuracy_score(y_test, y_pred)

print(‘Accuracy on test dataset:’, acc_score)

Accuracy on test dataset: 0.6913

2.6 まとめ

CIFAR-10のデータセットで、TanhExpの活性化関数のモデルと RELUの活性化関数のモデルを作成しました。TanhExpとRELUの結果は同じくらいです。

担当者：KW
バンコクのタイ出身　データサイエンティスト
製造、マーケティング、財務、AI研究などの様々な業界にPSI生産管理、在庫予測・最適化分析、顧客ロイヤルティ分析、センチメント分析、SaaS、PaaS、IaaS、AI at the Edge の環境構築などのスペシャリスト