这篇论文的核心观点在于,对开放权重的大型语言模型 (LLMs) 来说,能够有效地提取用于模型对齐的训练数据。研究人员通过利用在模型后训练阶段引入的聊天模板和特殊标记,能够有效地促使模型“反刍”出类似对齐数据的信息。
论文的主要发现和贡献包括:
* **数据提取的有效性**:研究表明,通过这种方法可以从模型中提取出大量的对齐训练数据,包括用于监督微调 (SFT) 和强化学习 (RL) 的数据。
* **传统评估方法的局限性**:论文强调,传统的基于字符串匹配的记忆化评估方法会严重低估数据提取的真实程度。研究人员发现,使用高质量的嵌入模型来衡量语义相似性,能够更准确地捕捉到模型记忆化数据的能力,即使这些数据在字面上存在细微差异。
* **模型蒸馏的风险**:论文指出,从经过后训练的模型中提取的数据可以用于训练新的基础模型,并且能够有效地恢复原始模型的部分性能。这意味着模型蒸馏这一常见做法可能成为间接获取模型训练数据的一种方式,从而可能泄露模型的竞争优势。
* **强化学习中的意外记忆化**:研究人员发现,即使是经过强化学习 (RL) 训练的模型也能够“反刍”出训练样本。这在直觉上是反常的,因为强化学习的目标并非明确地提高序列的似然性。这一发现表明,对齐和记忆化之间存在比先前认为的更复杂的关系。
* **对开放模型的适用性**:论文提出的攻击方法主要针对开放权重模型,因为它们允许用户控制分词和聊天模板结构。对于封闭模型,尽管挑战更大,但先前的工作表明这并非不可能。
总的来说,这篇论文揭示了开放权重LLMs中对齐数据可能被提取的风险,并提出了新的评估记忆化的方法,同时也对模型蒸馏的潜在影响和强化学习的记忆化行为提出了新的见解。
