介绍
(1) 发表:ICSE'25
(2) 背景
最近的一些工作研究了基于 LLM 的提交信息生成,然而目前尚不清楚 LLM 通过 ICL 在该领域的表现如何
(3) 贡献
本文对通过 ICL 使用 LLM 进行提交信息生成进行了实证研究,并创建了一个新的数据集
工作
(1) 研究设计
-
RQ1:不同的提示和提示设置如何影响基于 ICL 的提交信息生成的性能?
具体来说,我们根据是否提供了角色描述以及是否给出了约束信息来设计四个提示,并从三个维度(即数量、选择方式和顺序)研究演示设置
所获得的发现:适度数量的演示会增强性能,但过多的演示会降低性能;基于检索的演示选择可以显著提高性能,而演示顺序对性能的影响最小;GPT-3.5-Turbo 和 DeepSeek-V2-Chat 是提交消息生成任务中性能最佳的 LLM。此外,在通用 LLM 上进行额外的代码预训练并不会产生更好的性能
-
RQ2:基于 ICL 的提交信息生成与最先进的方法相比如何?
表现最好的 LLM 显著优于表现最好的基线,LLM 58.5% 的表现不佳案例是由不准确的测量引起的,这表明传统指标的局限性,迫切需要新的指标来准确评估基于 LLM 的提交消息生成方法的性能
-
RQ3:LLM 表现不佳的根本原因是什么?
我们抽样了 200 个 LLM 未能在 RQ2 中做出准确预测的表现不佳的案例,并总结了根本原因的类别。LLM 表现不佳的主要根本原因是缺乏上下文知识、不利的演示和模型谬误。两种潜在的缓解策略是提供高质量的演示和改进大型语言模型
(2) 一些结论
迫切需要高质量的数据集, LLM 作为评估方式是很理想的
总结
基于 ICL 的提交信息生成的一个较为全面的实证研究