TensorFlow運行方式。載入數據、定義超參數,構建網路,訓練模型,評估模型、預測。 構造一個滿足一元二次函數y=ax^2+b原始數據,構建最簡單神經網路,包含輸入層、隱藏層、輸出層。TensorFlow學習隱藏層、輸出層weights、biases。觀察訓練次數增加,損失值變化。 生成、載入數 ...
TensorFlow運行方式。載入數據、定義超參數,構建網路,訓練模型,評估模型、預測。
構造一個滿足一元二次函數y=ax^2+b原始數據,構建最簡單神經網路,包含輸入層、隱藏層、輸出層。TensorFlow學習隱藏層、輸出層weights、biases。觀察訓練次數增加,損失值變化。
生成、載入數據。方程y=x^2-0.5。構造滿足方程的x、y。加入不滿足方程雜訊點。
import tensor flow as tf
import bumpy as np
# 構造滿中一元二次方程的函數
x_data = np.linspace(-1,1,300)[:,np.newaxis] # 構建起300個點,分佈在-1到1區間,用np生成等差數列,300個點的一維數組轉換為300x1的二維數組
noise = np.random.normal(0, 0.05, x_data.shape) # 加入雜訊點,與x_data維度一致,擬合均值0、方差0.05正態分佈
y_data = np.square(x_data) - 0.5 + noise # y = x^2 - 0.5 + 雜訊
定義x、y占位符作輸入神經網路變數。
xs = tf.placeholder(tf.float32, [None, 1])
ys = tf.placeholder(tf.float32, [None, 1])
構建網路模型。
構建一個隱藏層,一個輸出層。輸入參數4個變數,輸入數據、輸入數據維度、輸出數據維度、激活函數。每層向量化處理(y = weights*x +biases),激活函數非線性化處理,輸出數據。定義隱藏層、輸出層:
def add_layer(inputs, in_size, out_size, activation_function=None):
# 構建權重:in_size*out_size 大小的矩陣
weights = tf.Variable(tf.random_normal([in_size, out_size]))
# 構建偏置:1 * out_size矩陣
biases = tf.Variable(tf.zeros([1, out_size]) + 0.1)
# 矩陣相乘
Wx_plus_b = tf.matmul(inputs, weights) + biases
if activation_function is None:
outputs = Wx_plus_b
else:
outputs = activation_function(Wx_plus_b)
return outputs #得到輸出數據
# 構建隱藏層,假設隱藏層有10個神經元
h1 = add_layer(xs, 1, 20, activation_function=tf.nn.relu)
# 構建輸出層,假設輸出層和輸入層一樣,有1個神經元
prediction = add_layer(h1, 20, 1, activation_function=None)
構建損失函數,計算輸出層預測值、真實值間誤差。二者差的平方求和再取平均。梯度下降法,以0.1效率最小化損失。
loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys - prediction), reduction_indices=[1]))
train_step = tf.train.GradientDescentOptimizer(0.1).minimize(loss)
訓練模型。訓練1000次,每50次輸出訓練損失值。
init = tf.global_variables_initializer() # 初始化所有變數
sess = tf.Session()
sess.run(init)
for i in range(1000): # 訓練1000次
sess.run(train_step, feed_dict = (xs: x_data, ys: y_data)
if i % 50 == 0: #每50次列印出一次損失值
print(sets.run(loss, feed_dict={xs: x_data, ys: y_data}))
訓練權重值,模型擬合y = x^2-0.5的繫數1和-0.5。損失值越來越小,訓練參數越來越逼近目標結果。評估模型,學習繫數weights、biase前向傳播後和真值y = x^2-0.5結果繫數比較,根據相近程度計算準確率。
超參數設定。hyper-parameters,機器學習模型框架參數。手動設定、不斷試錯。
學習率(learning rate),設置越大,訓練時間越短,速度越快。設置越小,訓練準確度越高。可變學習率,訓練過程記錄最桂準確率,連續n輪(epoch)沒達到最佳準確率,認為準確率不再提高,停止訓練,early stopping,no_improvement-in-n規則。學習率減半,再滿足時再減半。逐漸接近最優解,學習率越小,準確度越高。
mini-batch大小。每批大小決定權重更新規則。整批樣本梯度全部計算完,才求平均值,更新權重。批次越大訓練速度越快,利用矩陣、線性代數庫加速,權重更新頻率低。批次越小,訓練速度越慢。結合機器硬體性能與數據集大小設定。
正則項繫數(regularization parameter,λ)。憑經驗。複雜網路出現明顯過擬合(訓練數據準確率高,測試數據準確率下降)。一開始設0,確定好學習率,再給λ設值,根據準確率精細調整。
參考資料:
《TensorFlow技術解析與實戰》
歡迎推薦上海機器學習工作機會,我的微信:qingxingfengzi