しいたげられたしいたけ

熱中症とデルタ株で人は死ぬがメダルで人命は救えない

排他的論理和EORを機械学習で実現しようとしたらバタフライ効果が発生した?(その3)

相変わらず斎藤康毅『ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装』(O'REILLY) 読者限定の記事です。さらにバタフライ効果やカオス現象にある程度の知識と興味がある人ということで、さらに読者は限定されそうです。「ブログでやらず論文か紀要に書け」と言われそうですが、そこまで深掘りできるかわからないので、とりあえずブログに晒しています。今回も新着お目汚しを避けるため日付をさかのぼって公開しています。 

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

  • 作者:斎藤 康毅
  • 発売日: 2016/09/24
  • メディア: 単行本(ソフトカバー)
 

前回「その2」では、排他的論理和EORを実現しようとする中間層の形状が重み2×4+4×2要素、バイアス4+2要素の2層ニューラルネットワークにおいて、ガウス分布に基づく乱数により与えた重みの初期値を、小数点以下一桁ずつ丸めていったところ、繰り返し学習における正解率と損失関数の値のグラフが激しく変化したことを述べた。

同様の現象は、中間層の形状が重み2×3+3×2要素、バイアス3+2要素のニューラルネットワークでも観測された。

すなわち np.random.randn() メソッドの代わりにたまたまダンプしたW1、W2の初期値を直接数値で記述し…

>>> W1
array([[ 0.00739552, -0.01348939, -0.01178099],
[ 0.00189079, -0.00239779, 0.01830071]])
>>> W2
array([[-0.01346973, 0.01634472],
[ 0.01377876, -0.00612065],
[ 0.00380564, 0.02487122]])

np.round() メソッドで1桁ずつ丸めて正解率 acc と損失関数の値 loss のグラフを描かせたのである。

左:decimals=7、右:decimals=6。

f:id:watto:20210316001130p:plain
f:id:watto:20210316001124p:plain

 

左:decimals=5、右:decimals=4。

f:id:watto:20210316001150p:plain
f:id:watto:20210316001144p:plain

 

左:decimals=3、右:decimals=2。

f:id:watto:20210316001139p:plain
f:id:watto:20210316001134p:plain

重み2×4+4×2、バイアス4+2のときより、グラフの変化がむしろ激しくないか?

特にdecimals=4→5→6あたり。それぞれ1万分の1、10万分の1未満の差しかないはずである。

 

なお普通は小数点以下の丸め桁数を変えようなどとせず、他のハイパーパラメータを調整して収束を早めようと考えるであろうことを前回同様に想像し、やってみた。

すなわち重みW1、W2の初期値への乗数 weight_init_std を、大きくしていったのだ。

 左:weight_init_std=1.、右:weight_init_std=2.。

f:id:watto:20210316023013p:plain
f:id:watto:20210316023022p:plain

 

左:weight_init_std=5.、右:weight_init_std=10.。

f:id:watto:20210316023030p:plain
f:id:watto:20210316023035p:plain

 

左:weight_init_std=20.、右:weight_init_std=50.。

f:id:watto:20210316023157p:plain
f:id:watto:20210316023052p:plain

これはこれで、何が起きているか興味をそそる。だが収束を早める各種ハイパーパラメータの最適化をやっている人は、山ほどいる。しかも私がやろうとしているのは、ただの排他的論理和だ…「それを言っちゃぁおしまいよ」って奴かな?

ともあれ、まずは内部で何が起きているか調べるのに、重みW1、W2とバイアスb1、b2をグラフ化しようと思いついた。

中間1層2×3、2層3×2とは言え1層の1行目と2行目、2層の1列目と2列目は教師データの1列目と2列目に対応しており独立して扱えるはずだ(あとで要検証)。

つまり1層の1行目、2層の1列目だけに着目すれば、3次元ということで辛うじてグラフ化できる。

やってみた。

まずは1層目の重みの1行目 W1[0][0]、W1[0][1]、W1[0][2] から、3D折れ線グラフと3面展開図に描くことを試みた。

 

コードを再掲する。深い意味はないが、変数名をちょっと短めに変更している。

ただしこれまでと同様、 実行には O'REILLY の GitHubリポジトリ からダウンロードしたライブラリ(「まえがき」vii、ix 参照)と同じディレクトリに移動することが必要。

#コード3-1
import sys, os
sys.path.append(os.pardir)
import numpy as np
from common.functions import *
from common.gradient import numerical_gradient as n_g
x_e = np.array([[0, 0], [1, 0], [0, 1], [1, 1]])
t_e = np.array([[1, 0], [0, 1], [0, 1], [1, 0]])
weight_init_std=0.1
W1 = weight_init_std * np. array([
[ 0.07395519, -0.13489392, -0.1178099 ],
[ 0.01890785, -0.02397794, 0.18300705]])
W2 = weight_init_std * np. array([
[-0.13469725, 0.1634472 ],
[ 0.13778756, -0.06120645],
[ 0.03805643, 0.24871219]])
b1 = np.zeros(3)
b2 = np.zeros(2)

def predict(x):
    A1 = np.dot(x,W1) + b1
    Z1 = sigmoid(A1)
    A2 = np.dot(Z1,W2) + b2
    y = softmax(A2)
    return y


def loss(x, t):
    y = predict(x)
    return cross_entropy_error(y, t)


def acc(x, t):
    y = predict(x)
    y = np.argmax(y, axis=1)
    t = np.argmax(t, axis=1)
    accuracy = np.sum(y == t) / float(x.shape[0])
    return accuracy

 

loss_W = lambda W: loss(x_e, t_e)
loss_list, acc_list = [ ], [ ]
data_list = [[ ] for i in range(3)]
l_r , s_n = 5.0, 70

 

あとでコードを参照するときの便宜のため、分割して以下を「#コード3-2」と呼称する。Anaconda プロンプトの対話モードには連続して貼り付ければよい。

import matplotlib.pyplot as plt #コード3-2
for i in range(s_n):
    W1 -= l_r*n_g(loss_W, W1)
    b1 -= l_r * n_g(loss_W, b1)
    W2 -= l_r * n_g(loss_W, W2)
    b2 -= l_r * n_g(loss_W, b2)
    loss_list.append(loss(x_e,t_e))
    acc_list.append(acc(x_e, t_e))
    for k in range(3):
        data_list[k] .append(W1[0,k])


3次元折れ線グラフの作成方法は、西住工房 さんのサイトを参照させていただきました。ありがとうございます。

algorithm.joho.info

「#コード3-1」、「#コード3-2」に続けて次の「#コード3-3」を対話型プロンプトにコピペすると…

#コード3-3
from mpl_toolkits.mplot3d import Axes3D # 3Dでプロット

fig = plt.figure()
ax = Axes3D(fig)
ax.plot(data_list[0], data_list[1], data_list[2], "o-")

ax.set_xlabel('W100') # 軸ラベル
ax.set_ylabel('W101')
ax.set_zlabel('W102')

plt.show()

こんなグラフが表示されるはずである。

f:id:watto:20210316104834p:plain

グラフの始点と終点がわかりにくいが、始点は座標原点近く、終点はグラフ描画後にW1をダンプしたところにより

>>> W1
array([[ 3.67330855, 0.74832202, -4.15234076],
[-4.11706592, 0.34038046, 3.74518328]])

 すなわち1行目は (3.6, 0.7, -4.2) あたりを目指して収束しようとしている(ように見える)。

 

『ゼロから作るDeep Learning』P177 図6-8 を描画するスクリプト "optimizer_compare_naive.py" を改造して、2次元3面展開図風のグラフも描画してみた。スクリプトは O'REILLY の GitHubリポジトリ からダウンロードできる。

グラフを描画したデータは保持されているので、上掲「#コード3-3」で描画したグラフを閉じた直後に、下記「#コード3-4」をコピペすれば…

#コード3-4
plt.subplot(2, 2, 2)
plt.plot(data_list[0], data_list[2], 'o-')
plt.xlabel("W210")
plt.ylabel("W220")

plt.subplot(2, 2, 3)
plt.plot(data_list[1], data_list[2], 'o-')
plt.xlabel("W210")
plt.ylabel("W220")

plt.subplot(2, 2, 4)
plt.plot(data_list[0], data_list[1], 'o-')
plt.xlabel("W200")
plt.ylabel("W210")

plt.show()

 

 左下が「#コード3-3」グラフの左側面、右上が同右側面、右下が同底面への射影を2次元グラフ化したものとなる。

f:id:watto:20210316104839p:plain

 

なお、グラフを閉じた後で次の「#コード3-5」を貼り付ければ…

#コード3-5
x = np.arange(len(loss_list))
plt.plot(x, loss_list, label='loss')
plt.plot(x, acc_list, label='acc', linestyle='--')
plt.xlabel("iteration")
plt.legend()
plt.show()

正解率 acc と損失関数の値 loss のグラフが表示される。今どのデータを扱っているか確認用に重宝することがあるので。

https://cdn-ak.f.st-hatena.com/images/fotolife/w/watto/20210316/20210316122132.png

 

次に重み b1[0]、b1[1]、b1[2] のグラフを描画するコードだが、「#コード3-1」に続けて貼り付ける必要がある。「#コード3-1」を再び貼り付けるのはデータをリセットするためなので、すでに1度以上グラフを描画していれば簡略版として次の「#コード3-1'」を貼ってもいい。

#コード3-1'
W1 = weight_init_std * np. array([
[ 0.07395519, -0.13489392, -0.1178099 ],
[ 0.01890785, -0.02397794, 0.18300705]])
W2 = weight_init_std * np. array([
[-0.13469725, 0.1634472 ],
[ 0.13778756, -0.06120645],
[ 0.03805643, 0.24871219]])

b1 = np.zeros(3)
b2 = np.zeros(2)

loss_list, acc_list = [ ], [ ]
data_list = [[ ] for i in range(3)]

グラフにするb1を記録する「#コード3-6」 。

#コード3-6
for i in range(s_n):
    W1 -= l_r*n_g(loss_W, W1)
    b1 -= l_r * n_g(loss_W, b1)
    W2 -= l_r * n_g(loss_W, W2)
    b2 -= l_r * n_g(loss_W, b2)
    loss_list.append(loss(x_e,t_e))
    acc_list.append(acc(x_e, t_e))
    for k in range(3):
        data_list[k] .append(b1[k])


 b1の3次元折れ線グラフを描画する「#コード3-7」。

2行目のコメントアウトは、Anaconda プロンプトの対話モードに入って3次元グラフを描画するのが初めてであれば、実行する必要がある。

#コード3-7
#from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure()
ax = Axes3D(fig)
ax.plot(data_list[0], data_list[1], data_list[2], "o-")

ax.set_xlabel('b10')
ax.set_ylabel('b11')
ax.set_zlabel('b12')
plt.show()
 

 「#コード3-1」または「#コード3-1'」、「#コード3-6」、「#コード3-7」を続けて貼ると、次のようなb1の3次元折れ線グラフが表示されるはずだ。 

f:id:watto:20210316104950p:plain

 

 続けて下記「#コード3-8」を貼ると、2次元3面展開図風のグラフが表示されるはず。

#コード3-8
plt.subplot(2, 2, 2)
plt.plot(data_list[0], data_list[2], 'o-')
plt.xlabel("b10")
plt.ylabel("b12")

plt.subplot(2, 2, 3)
plt.plot(data_list[1], data_list[2], 'o-')
plt.xlabel("b11")
plt.ylabel("b12")

plt.subplot(2, 2, 4)
plt.plot(data_list[0], data_list[1], 'o-')
plt.xlabel("b10")
plt.ylabel("b11")

plt.show()

3D折れ線グラフでは直線のように見えていたが、実は途中で折り返していたことがわかる。実はこれは大変重要な情報で、カオス理論で言うところの「アトラクタ」というものの存在を示唆するように思われる。それを言うのはまだ早いか? 

f:id:watto:20210316104945p:plain

参考までに、グラフ描画後の b1 のダンプを示す。 

>>> b1
array([3.02969873, 3.49216726, 3.06368501])

 

2層目の重みW2[0][0]、W2[1][0]、W2[2][0]を描画する「#コード3-9」。W1のときと違って列方向がセットになることは、行列式または図解による説明が必要かも知れないが今は失礼する。

グラフ描画データ初期化のため「#コード3-1」または「#コード3-1'」に続けて貼る必要がある。

#コード3-9
for i in range(s_n):
    W1 -= l_r*n_g(loss_W, W1)
    b1 -= l_r * n_g(loss_W, b1)
    W2 -= l_r * n_g(loss_W, W2)
    b2 -= l_r * n_g(loss_W, b2)
    loss_list.append(loss(x_e,t_e))
    acc_list.append(acc(x_e, t_e))
    for k in range(3):
        data_list[k] .append(W2[k,0])


「#コード3-1」または「#コード3-1'」と「#コード3-9」に続けて、次の「#コード3-10」を貼ると…

#コード3-10
#from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure()
ax = Axes3D(fig)
ax.plot(data_list[0], data_list[1], data_list[2], "o-")
ax.set_xlabel('W200')
ax.set_ylabel('W210')
ax.set_zlabel('W220')
plt.show()

次のようなW2の3次元折れ線グラフが表示されるはずだ。  

f:id:watto:20210316110017p:plain

 

 グラフを閉じた直後に、次の「#コード3-11」を貼ると…

#コード3-11
plt.subplot(2, 2, 2)
plt.plot(data_list[0], data_list[2], 'o-')
plt.xlabel("W210")
plt.ylabel("W220")

plt.subplot(2, 2, 3)
plt.plot(data_list[1], data_list[2], 'o-')
plt.xlabel("W210")
plt.ylabel("W220")

plt.subplot(2, 2, 4)
plt.plot(data_list[0], data_list[1], 'o-')
plt.xlabel("W200")
plt.ylabel("W210")

plt.show()

 

 W2の3面展開図風のグラフが表示されるはず。やはり折り返しが観測された!

f:id:watto:20210316110003p:plain

グラフ描画後のW2のダンプである。

>>> W2
array([[ 7.31684671, -7.31397172],
[ 5.81499619, -5.80733808],
[ 7.40499364, -7.37631678]])

 

2層の重み b2[0]、b2[1] は2要素なのでグラフ描画は比較的ラクである。「#コード3-1」または「#コード3-1'」による初期化後、次の「#コード3-12」を貼り付けると…

#コード3-12
for i in range(s_n):
    W1 -= l_r*n_g(loss_W, W1)
    b1 -= l_r * n_g(loss_W, b1)
    W2 -= l_r * n_g(loss_W, W2)
    b2 -= l_r * n_g(loss_W, b2)
    loss_list.append(loss(x_e,t_e))
    acc_list.append(acc(x_e, t_e))
    for k in range(2):
        data_list[k] .append(b2[k])


plt.plot(data_list[0], data_list[1], 'o-')
plt.xlabel("b20")
plt.ylabel("b21")

plt.show()

 次のようなグラフが表示されるはずだ。

https://cdn-ak.f.st-hatena.com/images/fotolife/w/watto/20210316/20210316140937.png

b2のダンプ。何度やっても最小桁まで同じ数字になるはずである。

>>> b2
array([-17.26072032, 17.26072032])

ただし毎回初期化をするのは面倒なので一度にW1、b1、W2、b2のグラフ描画用データを記録できるよう、目下コードを改造しているところである。

スポンサーリンク