当前位置：首页 > news >正文

Min-p采样：通过动态调整截断阈值让大模型文本生成兼顾创造力与逻辑性

news 2025/9/30 21:10:06

大语言模型的工作原理说起来很直接：根据输入内容和已生成的文本，预测下一个最合适的词（token）。输入先转换成 token，再变成向量表示，最后在输出层重新转回 token。

真正的挑战在于如何从候选词中做出选择。这个过程本质上是统计和概率性的，叫做"采样"。每个解码步骤模型都要从整个词汇表的概率分布中采样出下一个 token。

采样策略决定了模型的表现：只选概率最高的词，输出会很安全但缺乏新意而完全随机选择又会导致输出混乱。所以对大模型来说，精髓就在这两个极端之间找平衡。

Min-p 采样提供了一个新的解决思路：这是一种随机技术，能根据模型的置信度动态调整截断阈值，让阈值变得对上下文敏感，这样一来阈值不再固定，而是取决于当前 token 分布的确定程度。

现有采样方法的局限性

我们先看看目前主流的方法都有什么问题。

贪心解码和束搜索属于准确定性方法，每步都选最可能的 token。这样做很稳但也意味着错过了更多样化和创新的输出可能。

温度参数像个风险调节器，较低的温度值可以让模型保守行事，而高温则鼓励冒险尝试不太可能的词汇。但温度调节比较粗糙，缺乏精细控制。

Top-k 采样只从概率最高的 k 个候选中选择，问题是它不会根据模型置信度变化而调整。k 值小了过于保守，限制创造力，这时如果温度值高了的话又很容易产生噪音和不连贯的输出。

Top-p（核采样）动态选择累积概率超过阈值 p 的最小 token 集合。不过在高温度下这种方法也可能产生重复或不连贯的文本。p 值低了太保守，p 值高了又太冒险。

动态阈值采样会根据模型置信度调整 token 阈值，当温度很高（T>2）时，概率分布被"拉平"，许多 token 的概率都很接近且偏低，即便配合 top-p 或 top-k 也容易出现退化、重复甚至胡言乱语，所以这个采样值需要更多的调参步骤。

下图直观展示了各种采样方法的区别：

图（a）为初始 token 分布。图（b）为 top-p 采样。图（c）为 top-k 采样。图（d）为 min-p 采样。

https://avoid.overfit.cn/post/0f692943578945c09e18288e73615f4f

查看全文

http://www.hskmm.com/?act=detail&tid=21676

ARL灯塔搭建

记 Charles 抓不到包 - Higurashi

STM32H743-ARM例程13-SDIO - 实践

贼猴 0930 模拟赛 T2 | 计数

题解：AT_abc311_h [ABC311Ex] Many Illumination Plans

2025-9-27 提高组模拟赛 div2

part2

Controversial Rounds

题解：B4410 [GESP202509 一级] 金字塔

9.30总结

pytorch基本运算-torch.normal()函数输出多维材料时，如何绘制正态分布函数图

AT_agc035_c [AGC035C] Skolem XOR Tree

动手动脑 - A

2025.9.30总结 - A

详细介绍：第14章 AI Agent——构建自主智能助理

PowerToys新工具Light Switch：让Windows自动切换明暗主题

java从word模板生成.doc和.wps文件

炼石#8 T1

详细介绍：《C++ Primer Plus》读书笔记第二章开始学习C++

【虚拟机】“：域名解析出现暂时性错误”VMware配置DNS

双抗 ADC：如何突破传统 ADC 瓶颈，成为癌症治疗的精准杀伤利器？

微信聊天记录移动到外置磁盘后，如何解决无法引导聊天记录

AI+手搓第一个AI Agent“AI胜铭兰”

基于JDK17的GC调优策略

现有采样方法的局限性

相关文章：