摘要
本文完整推导了从正态总体 \(N(\mu, \sigma^2)\) 中抽取的样本中,单个标准化残差 \(W = (X_1 - \bar{X}) / \sqrt{\sum(X_i - \bar{X})^2}\) 的概率密度函数。证明过程利用了赫尔默特变换与多元正态分布的旋转不变性,将 \(W^2\) 与Beta分布关联,最终通过变量代换求得其精确的函数形式与支撑集。
1. 题目表述
问题背景
设 \(X_1, X_2, \dots, X_n\) (其中样本量 \(n>2\)) 是来自正态分布总体 \(N(\mu, \sigma^2)\) 的一组简单随机样本。
定义样本均值 \(\bar{X}\):
定义离差平方和 (Sum of Squared Deviations) \(S_{SS}^2\):
求解目标
求统计量 \(W\) 的概率密度函数 (PDF):
2. 完整推导过程
第一步:问题的简化 (详细展开)
此步骤旨在证明统计量 \(W\) 的分布与总体参数 \(\mu\) 和 \(\sigma\) 无关。
-
定义标准化变量:
我们定义一个标准化的随机变量 \(Y_i = \frac{X_i - \mu}{\sigma}\)。根据正态分布的性质,可知 \(Y_i \sim N(0, 1)\) 且相互独立。其反向关系为:\(X_i = \sigma Y_i + \mu\)。 -
用 \(Y_i\) 表示分子:
首先,用 \(Y_i\) 表示样本均值 \(\bar{X}\):\[\bar{X} = \frac{1}{n}\sum_{i=1}^{n} (\sigma Y_i + \mu) = \sigma\bar{Y} + \mu \]现在,我们可以表示分子 \(X_1 - \bar{X}\):
\[X_1 - \bar{X} = (\sigma Y_1 + \mu) - (\sigma\bar{Y} + \mu) = \sigma(Y_1 - \bar{Y}) \] -
用 \(Y_i\) 表示分母:
对于任意一项 \(X_i - \bar{X}\),我们有 \(X_i - \bar{X} = \sigma(Y_i - \bar{Y})\)。因此,离差平方和为:\[\sum_{i=1}^{n}(X_i - \bar{X})^2 = \sum_{i=1}^{n} [\sigma(Y_i - \bar{Y})]^2 = \sigma^2 \sum_{i=1}^{n}(Y_i - \bar{Y})^2 \]分母即为上式的平方根:
\[\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2} = \sigma \sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2} \] -
合并与结论:
将用 \(Y_i\) 表示的分子和分母代回 \(W\) 的定义:\[W = \frac{\sigma(Y_1 - \bar{Y})}{\sigma \sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}} = \frac{Y_1 - \bar{Y}}{\sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}} \]最终表达式完全由 \(Y_i \sim N(0,1)\) 构成。因此,不失一般性,在后续推导中,我们直接假设样本 \(X_i\) 来自标准正态分布 \(N(0, 1)\)。
第二步:赫尔默特(Helmert)正交变换
我们引入一个 \(n \times n\) 的正交矩阵 \(A\) (即 \(A^TA=I\)),对原始样本向量 \(X\) 进行线性变换,得到新向量 \(V=AX\)。\(V\) 的分量 \(V_1, \dots, V_n\) 是相互独立的标准正态随机变量。我们构造 \(A\) 使其最后一行 \(A_{n,j} = 1/\sqrt{n}\),从而得到 \(V_n = \sqrt{n} \bar{X}\)。
第三步:用新变量表示统计量的各部分
-
分母的推导:
\[\sum_{i=1}^{n}(X_i - \bar{X})^2 = \sum X_i^2 - n\bar{X}^2 = \left(\sum V_i^2\right) - n\left(\frac{V_n}{\sqrt{n}}\right)^2 = \sum_{i=1}^{n-1} V_i^2 \] -
分子的推导:
\[X_1 - \bar{X} = \sum_{i=1}^{n} A_{i,1} V_i - \frac{V_n}{\sqrt{n}} = \sum_{i=1}^{n-1} A_{i,1} V_i \]令系数 \(c_i = A_{i,1}\)。可推导出:
\[\sum_{i=1}^{n-1} c_i^2 = 1 - (1/\sqrt{n})^2 = \frac{n-1}{n} \]
第四步:利用旋转不变性的严格数学证明
-
定义与前提:
- 随机向量: 令 \(V = (V_1, \dots, V_{n-1})^T\) 为随机向量,其服从 \((n-1)\) 维标准多元正态分布,记为 \(V \sim N_{n-1}(0, I_{n-1})\)。
- 常数向量: 令 \(c = (c_1, \dots, c_{n-1})^T \in \mathbb{R}^{n-1}\) 为常数向量,其范数平方为 \(\|c\|^2 = c^T c = \frac{n-1}{n}\)。
- 统计量函数: 统计量 \(W\) 是一个函数 \(W(V) = \frac{c^T V}{\|V\|}\)。
-
关键引理:标准多元正态分布的旋转不变性:
设随机向量 \(V \sim N_{n-1}(0, I_{n-1})\),并令 \(Q\) 为任意一个 \((n-1) \times (n-1)\) 的正交矩阵。则变换后的随机向量 \(U = QV\) 与原向量 \(V\) 同分布。 -
证明过程:
根据引理,\(W(V)\) 的分布与 \(W(QV)\) 的分布相同。我们可以构造一个特定的正交矩阵 \(Q\),使得 \(Qc = \|c\| e_1\),其中 \(e_1 = (1, 0, \dots, 0)^T\) 是第一个标准基向量。
\(W\) 在分布上等同于 \(W(Q^T U) = \frac{(Qc)^T U}{\|U\|} = \frac{\|c\| U_1}{\|U\|}\)。
代入 \(\|c\|\) 和 \(\|U\|\) 的表达式,可得 \(W\) 在分布上等同于:\[\frac{\sqrt{\frac{n-1}{n}} U_1}{\sqrt{U_1^2 + \sum_{i=2}^{n-1} U_i^2}} \]
第五步:关联贝塔(Beta)分布并进行精确求解
-
确认关系和已知分布:
令 \(T^2 = \sum_{i=2}^{n-1} U_i^2\),则 \(T^2 \sim \chi^2_{n-2}\)。同时 \(U_1^2 \sim \chi^2_1\),且两者独立。我们有:\[W^2 = \frac{n-1}{n} \left( \frac{U_1^2}{U_1^2 + T^2} \right) \]令 \(B = \frac{U_1^2}{U_1^2 + T^2}\),则 \(B \sim \text{Beta}(\frac{1}{2}, \frac{n-2}{2})\)。
-
第一次变量变换:从 \(B\) 推导 \(Y=W^2\) 的分布:
令 \(Y = W^2 = \frac{n-1}{n} B\)。通过变量变换可得:\[f_Y(y) = \frac{\sqrt{n}}{\sqrt{n-1}} \frac{y^{-1/2}(1-\frac{ny}{n-1})^{(n-4)/2}}{B(1/2, (n-2)/2)}, \quad y \in (0, \frac{n-1}{n}) \] -
第二次变量变换:从 \(Y=W^2\) 推导 \(W\) 的分布:
由于 \(W\) 分布的对称性,其PDF \(f_W(w)\) 与 \(Y\) 的PDF \(f_Y(y)\) 存在关系 \(f_W(w) = |w| f_Y(w^2)\)。代入上式并化简可得最终结果。
3. 最终结论
经过上述完整推导,统计量 \(W = \frac{X_1 - \bar{X}}{\sqrt{\sum(X_i - \bar{X})^2}}\) 的概率密度函数为:
该函数的定义域 (support) 为: