代码和数据可用性
代码和数据已在GitHub上公开。代码包含蒙特卡洛保形预测以及论文v1版中的合理性区域实现。
保形p值的推导
保形预测与p值的关联在文献中分布零散,目前缺乏完整的参考资料。为此,我们在论文附录B中提供了详细的推导过程。
从不同标注格式获取合理性λ
这本质上是一个建模选择,取决于可用的标注类型。在第3.1节中,我们提供了两个示例:标注者提供单个标签或标签的部分排序,通过聚合模型定义相应的聚合分布$P^{agg}_{Y|X}$:
$$P^{agg}(Y=y|X=x)=\int\int p(y|\lambda)p(\lambda|b,x)p(b|x)dbd\lambda$$
其中$\lambda$表示合理性向量(分类任务中即为定义类别$y$概率的向量),$y$是目标标签,$x$是样本,$b$是标注。在该模型中,获取合理性归结为定义$p(\lambda|b,x)$。论文中我们简化为$p(\lambda|b)$,即假设标注者从一般未知的模型$p(b|x)$中抽取标注,然后通过$p(\lambda|b)$获得合理性。如第3.1节所示,当$b$是每个样本/标注者的单个标签或标签的部分排序时,我们有相应的示例模型。附录A提供了另一个二分类问题的示例,其中标注基于某种尺度(如Likert尺度)定义,我们在该尺度上放置高斯分布,并使用阈值(可拟合)定义正类和负类。通常,$p(\lambda|b)$本质上是将标注格式转换为合理性格式。
为何不在合理性空间直接进行保形预测?
我们尝试过这种方法,并在论文v1版中进行了报告。我们还发布了一份后续技术报告,因为在合理性空间中进行保形预测本质上提供了一种构建信用集的保形方法:保形化信用集预测器。
能否直接针对标注进行校准?
在许多场景下可以且应该这样做,但这存在一个隐含假设:标注格式与合理性格式匹配。这意味着对于分类任务,合理性是分类分布,而标注是单个标签(每个标注者提供一个标签)。如果格式不匹配,则需要一个模型$p(\lambda|b)$在两者之间进行转换。论文中给出的一个示例是在分类任务中使用标签的部分排序,见第3.1节。
标注本身是否存在不确定性(如标注噪声)?
确实存在。但在我们的论文中,标注不确定性“隐藏”在用于获取合理性的聚合模型$p(\lambda|b)$中。我们在另一篇论文中明确定义了真实值不确定性,将其分解为固有不确定性和标注不确定性。蒙特卡洛保形预测仅处理固有不确定性,即合理性可能具有高熵(不存在单一明确标签)的事实。本工作中,我们表明我们不仅需要$p(\lambda|b)$的点估计,还需要能够直接从中采样。合理性分布$\lambda \sim p(\lambda|b)$描述了标注不确定性。
蒙特卡洛保形预测可用于处理两种不确定性来源或仅其中一种。除了为每个样本从$\lambda$中采样标签外,还可以重新采样合理性$\lambda \sim p(\lambda|b)$,从而同时考虑固有不确定性和标注不确定性。也可以仅考虑标注不确定性,这本质上假设不存在固有不确定性,但由于分歧和标注不确定性,合理性$\lambda$仍不是one-hot形式。因此,可以采样$\lambda \sim p(\lambda|b)$,然后取$\lambda$的top-1标签进行保形预测。
能否保证任意风险?
我们未明确探索这一点。我相当确信将保形风险控制(通过采样标签创建增强校准集并应用保形风险控制)适配到蒙特卡洛保形预测中应该可行。但由于论文中使用的p值技巧不直接适用,保证是否保留尚不明确。如果您有兴趣研究此问题,请告知!
为何经验上覆盖率为$1-\alpha$,但理论上仅保证$1-2\alpha$?
这仍是一个未解决的问题。许多类似方法(如Jackknife+保形预测或交叉保形预测)存在相同问题或观察到相同现象。我认为这归根结底源于组合依赖p值时无法保持$1-\alpha$保证的局限性。另一方面,构建实际实现较低保证$1-2\alpha$的数据集很困难(且可能在实践中永远不会发生)。我们曾尝试构建蒙特卡洛保形预测中存在显式经验覆盖差距的案例,但未能成功。
能否将蒙特卡洛保形预测扩展到回归问题?
是的,这应该可行,但需要额外的建模假设。对于分类,分类分布相当通用。但对于回归,必须对合理性的形式做出假设。例如,可以选择正态分布并相应地定义聚合模型$p(b|\lambda)$。然而,根据标注和任务的不同,可能需要多种不同的分布来适当建模目标$y$,这使得回归情况比分类更为复杂。
多标签分类实验中的覆盖定义直觉是什么?
在多标签保形预测中,长期采用与蒙特卡洛保形预测非常相似的方法:给定校准集中每个样本的标签集,为每个标签重复样本并执行标准保形预测。如果我们假设合理性定义了标签集上所有标签的均匀分布,而不是仅使用每个标签一次,则可以执行蒙特卡洛保形预测。此时,聚合覆盖意味着校准过程可以决定如何在标签集之间分配覆盖。本质上,这表示我们不要求预测器输出标签集中的所有标签以获得覆盖,而是可以获得“部分”覆盖。这是否可取取决于具体应用。
数据增强实验在实际中意味着什么?
对于训练机器学习模型,数据增强是常见做法。蒙特卡洛保形预测告诉我们,校准过程也可以进行同样的操作。这填补了一个重要空白:训练期间的数据增强旨在将不变性引入预测模型,但标准保形预测会忽略这些不变性,导致分布部分覆盖不足。通过蒙特卡洛保形预测,我们可以在增强的校准集上进行校准。
皮肤病学案例研究中能否直接对鉴别诊断/部分排序列表执行保形预测?
是的,可以。这需要为每个部分排序分配一个一致性分数,可以使用Plackett-Luce模型实现(如相关论文所述)。但在测试时仍需尝试所有可能的部分排序以构建实际预测集,这比多标签分类的标准保形预测更昂贵。此外,这在实践中通常不适用,因为许多应用中不清楚如何使用这些部分排序集合。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码