神经网络的反向传播

梯度下降算法

🔥我们来看一下神经网络中的梯度下降算法🔥

梯度下降法是一种优化算法，用于寻找目标函数的最小值。梯度是一个向量，表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处变化最快的方向。在数学上，梯度就是关于输入的偏导数。

🌟η是学习率，如果学习率设置得太小，可能会导致收敛速度过慢；如果学习率太大，那就有可能直接跳过最优解，导致算法在最小值附近震荡甚至发散。所以，学习率也需要随着训练的进行而变化。

在实际应用中，梯度下降法的初始点是随机选择的，这意味着最终找到的最小值可能取决于初始点的选择。有时候可能需要多次尝试，或者使用不同的初始点来尝试找到更好的最小值。

🌊在进行模型训练时，Epoch、Batch 和 Iteration 是三个基础且重要的概念。🌊

Epoch 指的是整个数据集通过神经网络的次数。换句话说，当网络看完数据集中的所有图片、文本或其他数据类型一次，就算是完成了一个Epoch。
Batch 是指将大规模数据划分成小批次数据的过程。每个Batch中包含多个样本，模型会对这些样本进行前向传播和反向传播，计算出参数的梯度并进行更新。Batch的大小，也称为Batch size，决定了每次迭代更新参数的样本数量，对模型收敛速度和效果有一定影响。
Iteration 指的是模型在一个Batch中更新一次参数的过程。在一个Epoch中，可能需要多个Iteration来遍历完所有的数据。

梯度下降的几种方式：

批量梯度下降（BGD）在每次迭代时使用整个数据集来计算梯度，这意味着它每次更新都考虑了所有样本的信息。这种方法可以更准确地沿着优化方向前进，但是计算速度较慢，且对于大规模数据集来说可能不太实用。

随机梯度下降（SGD）是在每次迭代中随机选择一个样本来计算梯度并更新参数。这种策略使得SGD比BGD快很多，并且可以处理非常大的数据集。然而，由于它是基于单个样本的，所以可能会引入很多噪声，导致优化过程出现波动。

小批量梯度下降（MBGD）是一种折中的方法，它在每次迭代中使用一小部分随机选取的样本来计算梯度。这种方法既利用了一些样本的信息，又保持了较快的计算速度。

实际上，梯度下降的几种方式的根本区别就在于 Batch Size不同

梯度下降方式	训练次数	Batch Size	Number of Batches
BGD	N	N	1
SGD	N	1	N
Mini - Batch	N	B	N / B + 1

假设数据集有 50000 个训练样本，现在选择 Batch Size = 256 对模型进行训练。

每个 Epoch 要训练的图片数量：50000 训练集具有的 Batch 个数：50000/256+1=196 每个 Epoch 具有的 Iteration 个数：196 10个 Epoch 具有的 Iteration 个数：1960

import numpy as np

def gradient_descent(X, y, theta, alpha, num_iters):
    m = len(y)
    J_history = np.zeros(num_iters)

    for i in range(num_iters):
        h = np.dot(X, theta)
        loss = h - y
        gradient = np.dot(X.T, loss) / m
        theta = theta - alpha * gradient
        J_history[i] = np.sum(loss ** 2) / (2 * m)

    return theta, J_history

# 示例数据
X = np.array([[1, 2], [1, 3], [1, 4], [1, 5]])
y = np.array([3, 4, 5, 6])
theta = np.array([0, 0])
alpha = 0.01
num_iters = 1000

# 调用梯度下降函数
theta, J_history = gradient_descent(X, y, theta, alpha, num_iters)
print("Theta:", theta)
print("Loss history:", J_history)