$\begin{aligned} T_t(x)= \left\{ \begin{array}{ll} \frac{6·0.4}{6} = 0.4 \qquad ,x ∈ 正类 \\ \frac{4·(-0.6)}{4} = -0.6 \qquad ,x ∈ 负类 \end{array} \right. \end{aligned}$

4）再次计算概率

假设学习率 $η=0.1\eta=0.1$ ，更新模型预测：

正类预测： $F_{正类}=0.4055+0.1×0.4 = 0.4455$
负类预测： $F_{负类}=0.4055+0.1×(−0.6) = 0.3455$

计算预测概率

更新预测概率 $P$

正类概率： $P正类=11+e−0.4455≈0.6095P_{正类}=\frac{1}{1+e^{-0.4455}} \approx 0.6095$
负类概率： $P负类=11+e−0.3455≈0.5854P_{负类}=\frac{1}{1+e^{-0.3455}} \approx 0.5854$

由于设置了迭代次数：n_estimators=5，继续迭代

4）计算二轮残差

正类残差： $r_{正类}=1-0.6095=0.3905$
负类残差： $r_{负类}=0-0.5854=−0.5854$

5）继续训练第二棵决策回归树

$\begin{aligned} T_t(x)= \left\{ \begin{array}{ll} \frac{6·0.3905}{6} = 0.3905 \qquad ,x ∈ 正类 \\ \frac{4·(-0.5854)}{4} = -0.5854 \qquad ,x ∈ 负类 \end{array} \right. \end{aligned}$

模型预测 $F$
- 正类预测： $F正类=0.4455+0.1×0.3905≈0.4846F_{正类}=0.4455+0.1×0.3905 \approx 0.4846$
- 负类预测： $F负类=0.3455+0.1×(−0.5854)≈0.287F_{负类}=0.3455+0.1×(-0.5854) \approx 0.287$
预测概率 $P$
- 正类概率： $P正类≈0.6188P_{正类} \approx 0.6188$
- 负类概率： $P负类≈0.5713P_{负类} \approx 0.5713$

6）不断迭代，直至n_estimators=5

默认使用最后一次的参数，有位彦祖就说，这不合理啊，有可能中途第三次训练的参数拟合度更高，为什么不用第三次的参数呢，这个问题可以使用早停法解决，后面会说

回归树

有位彦祖问了，我明明是做分类问题，为什么要用回归树来拟合残差？“回归”这个词到底指的是什么？

我们用的决策树，是回归决策树，是为了拟合残差。之前讨论过决策树，但是是分类决策树，这里简单描述一下回归决策树

直接上一个例子，更加明白。比如现在有一组样本

x	y
1	5
2	6
3	7
4	15
5	16
6	17

为了简单说明，假设我们的树深度只有1

1）选择切分点，两个样本中间

x = [1 2 3 4 5 6] => [1.5 2.5 3.5 4.5 5.5]

假设选择3.5的切分点

2）计算损失函数MSE

左子集：x = [1 2 3]，y = [5 6 7]
- 均值： $5+6+73=6\frac{5+6+7}{3} = 6$
- MSE = $1n∑i=1n(yi−y^i)2=(5−6)2+(6−6)2+(7−6)23≈0.6667\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \frac{(5-6)^2+(6-6)^2+(7-6)^2}{3} \approx 0.6667$
右子集：x = [4 5 6]，y = [15 16 17]
- 均值： $15+16+173=16\frac{15+16+17}{3} = 16$
- MSE = $1n∑i=1n(yi−y^i)2=(15−16)2+(16−16)2+(17−16)23≈0.6667\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \frac{(15-16)^2+(16-16)^2+(17-16)^2}{3} \approx 0.6667$
加权总MSE： $36⋅0.6667+36⋅0.6667=0.6667\frac{3}{6}·0.6667 + \frac{3}{6}·0.6667 = 0.6667$

也可以选择其他的分割点，然后计算MSE，选择最优分割点

3）拟合树

$\begin{aligned} T_t(x)= \left\{ \begin{array}{ll} \frac{5+6+7}{3} = 6\qquad ,x > 3.5 \\ \frac{15+16+17}{3} = 16 \qquad ,x <= 3.5 \end{array} \right. \end{aligned}$

残差与梯度

根据二分类的交叉熵公式以及求概率公式

${L(y,y^)=−(ylog⁡(y^)+(1−y)log⁡(1−y^))y^=11+e−F \begin{cases} L(y, \hat{y})=-(y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})) \\ \hat{y}=\frac{1}{1+e^{-F}} \\ \end{cases}$

对特征 $x$ 求导，通过剥洋葱方法：

$∂L∂F=∂L∂y^⋅∂y^∂F=−(yy^−1−y1−y^)⋅e−F(1+e−F)2\frac{\partial L}{\partial F}=\frac{\partial L}{\partial \hat{y}}·\frac{\partial \hat{y}}{\partial F}=-(\frac{y}{\hat{y}}-\frac{1-y}{1-\hat{y}})·\frac{e^{-F}}{(1+e^{-F})^2}$

由于 $y^=11+e−F\hat{y}=\frac{1}{1+e^{-F}}$ ，那么 $1−y^=e−F1+e−F1-\hat{y}=\frac{e^{-F}}{1+e^{-F}}$ ，带入上面：

$∂L∂F=−(yy^−1−y1−y^)⋅y^(1−y^)=y^−y\frac{\partial L}{\partial F}=-(\frac{y}{\hat{y}}-\frac{1-y}{1-\hat{y}})· \hat{y}(1-\hat{y})=\hat{y}-y$

梯度有了，那负梯度自然也计算出来了

$y−y^y-\hat{y}$

通过计算，负梯度=残差，所以，在上面演示的GBDT二分类任务中，就是沿着负梯度（残差）方向不断的寻找

早停法

顾名思义，就是发现模型性能下降的时候，立刻停止训练，并且保留性能最高的那组参数

import lightgbm as lgb
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
X, y = make_classification(n_samples=1000, n_features=20, random_state=0)
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=0)
train_data = lgb.Dataset(X_train, label=y_train)
val_data = lgb.Dataset(X_val, label=y_val, reference=train_data)
params = {'objective': 'binary','metric': 'binary_logloss','learning_rate': 0.1,'max_depth': 3,'num_leaves': 7,'verbose': -1
}
model = lgb.train(params,train_data,num_boost_round=1000,valid_sets=[val_data],callbacks=[lgb.early_stopping(stopping_rounds=5),lgb.log_evaluation(period=10)]
)
y_pred = model.predict(X_val, num_iteration=model.best_iteration)
y_pred_binary = [1 if p > 0.5 else 0 for p in y_pred]
print(f"Validation Accuracy: {accuracy_score(y_val, y_pred_binary):.4f}")
print(f"Best iteration: {model.best_iteration}")

脚本，启动！

watermarked-gbdt_1_2