结构化数据自动生成文本技术解析
数据到文本生成技术将表格等结构化格式的信息转换为自然语言,使得结构化信息能够被阅读或收听,例如设备显示天气预报或语音助手回答问题。
技术挑战
基于数十亿句子训练的语言模型能够学习常见语言模式,通过预测可能的词序列生成自然流畅的句子。然而在数据到文本生成中,我们不仅需要流畅的语言,还需要准确传达内容。
传统的数据到文本生成方法使用机器学习模型流水线将数据转换为文本,但这种方法创建过程劳动密集,且流水线中一个步骤的错误会在后续步骤中累积。
DataTuner解决方案
某中心AI组织开发了一种名为DataTuner的神经端到端数据到文本生成系统,适用于各种数据类型和主题,能够生成流畅准确的文本。
系统架构
DataTuner的方法包含两个步骤:生成和重排序。
首先,语言模型从数据生成文本。在实验中,研究人员从能够生成文本的预训练语言模型GPT-2开始。为了使其适应数据到文本任务,使用特殊标记<data>
和<text>
来区分数据和文本,在连接的数据和文本上对其进行训练。使用训练好的模型生成文本时,唯一输入是数据。
在模型内部,连接了几种类型的嵌入:
- 词元嵌入:编码单个输入词的语义信息
- 位置嵌入:表示词在文本中的位置
- 细粒度状态嵌入:使用特殊标记表示数据项之间的结构关系
例如,数据三元组"Michelle Obama | author of | Becoming"将被转换为字符串"