当前位置：首页 > news >正文

Leveraging Context-Aware Prompting for Commit Message Generation 论文笔记

news 2025/9/22 15:30:08

介绍

(1) 发表：EMNLP'24

(2) 背景

现有方法通常存在一些缺点，例如只关注变化的行是不够的，或者在变化周围包含不相关的行会带来噪声。如图 1 所示，添加和删除的代码实际上是相同的，只是位置不同，导致代码更改定义不明确。此外，由于缺乏程序依赖关系分析，更改的行和程序的未更改部分之间的关联尚不清楚

(3) 贡献

基于代码属性图（CPG）理论的许多静态分析工具，本文提出了一个上下文感知的 Prompt。同时构建了一个上下文增强的的代码数据集 CODEC 用于提交信息生成

(1) CODEC 数据集

由于现有数据集缺乏对代码更改上下文的监督信号，因此我们为本文所研究的任务构建了自己的数据集

(2) COMMIT 模型

构建 Added-Deleted Context Graph：使用静态代码分析工具 Joern3 为更改前后的代码构建两个 CPG，分别用于删除的行和添加的行，保留删除或添加部分的依赖节点。通过组合两个 CPG 得到 ADCG，然后可以通过程序切片从 Diffs 中提取 ADCG 节点指示的有用上下文语句
依赖提取算法：考虑到过度平滑和平衡模型复杂性和效率之间的负面影响，我们将依赖关系的范围限制在一定深度。构建的算法可以在特定深度内从 ADCG 访问更改的语句

ADCG 中每个节点对应一条语句（或行），边表示语句之间的数据依赖或控制依赖。算法首先将变化的代码行作为初始节点集合，并基于它们构建初始的切片，然后以代码切片为工作队列，迭代地取出依赖关系：如果某个依赖片段的深度未超过预设的依赖深度，就检查其源节点或目标节点；一旦发现新的相关节点（即在依赖映射中能连接到尚未加入的节点），就将其加入依赖节点集合，并把新的依赖边加入切片中，等待后续处理。这样，依赖图会像“向外扩散”一样逐步更新。最后，算法收集所有相关节点的代码行作为结果，并将最初的变化行去除，只保留通过依赖传播得到的受影响行

(3) Prompt 设计

将每个提示扩展成四个特定的模版，每个模板都由任务提示、代码差异和基本事实提交消息组成，在实验阶段分别对 T1~T4 进行实验来验证对于提示变化方面的鲁棒性

最终的优化函数如下：

\[P(S|X,f_{prompt})=\sum_{x\in x,z\in [Z]}(\max\prod_{j=1}^zP_\theta(z_j|x,f_{prompt},z<j)) \]