摘要
实现2050年碳中和目标需要前所未有的技术、经济和社会变革。由于时间资源稀缺,基于相关事实和信息做出决策至关重要,以避免误导。本研究旨在帮助决策者快速找到与可再生能源领域公司和组织相关的信息。
我们提出在法语训练的五个RNN和变换器模型上微调新类别"TECH",用于分类技术领域和新技术产品。此外,由于模型在涉及初创公司的新闻上进行微调,我们注意到"ORG"类别中初创公司和公司名称检测的改进。
我们进一步探索了最有效模型在使用少量训练数据时准确预测实体的能力。展示了模型从几百到几千个标注数据训练的进展。这一分析证明了这些模型无需大型语料库即可提取见解的潜力,减少了标注自定义训练数据的漫长过程。
引言
在向可再生能源转型的背景下,决策者常常发现自己被关于创新的嘈杂和不清晰数据所淹没。手动评估每个新公司和产品既不可能也不高效。非自动化方法包括手动分析数据源、搜索单个术语以及依赖Twitter/X标签等系统。
手动标注是一个耗时的过程,我们花了几个小时手动标注用于模型训练的49篇文章。一旦模型训练完成,标注时间从几小时减少到几秒,同时保持显著的准确度水平。
方法论
完整预处理和训练流程
模型创建的所有步骤结合到一个单一流程中:
- 新闻文章提取和预处理
- 文本分割成单个句子
- 首次NER模型标注
- 校正标注并添加"TECH"类别
- 标注数据分割为训练集(80%)和验证集(20%)
- 所有五个模型使用相同数据进行微调
网络爬取
使用GNews库构建训练语料库,通过Google News生成特定查询的RSS feed。该方法允许按发布日期、语言和国家自动过滤文章,创建包含49篇文章的第一个训练集,共3260个标注实体。
模型选择
研究比较了五种模型:
- spaCy fr_core_news_lg(CNN模型)
- Babelscape/Wikineural-Multilingual-Ner
- CamemBERT
- DistilCamemBERT
- Camembert NER
结果与讨论
结果显示,CamemBERT模型在我们的新数据上适应最好,在新技术类别和ORG类别的新增内容上都表现出 impressive 的性能。具体F1分数如下:
- TECH类别:91.28%
- ORG类别:89.98%
- LOC类别:91.39%
- PER类别:100.00%
有限数据训练
为评估NER模型在小型数据集上的性能,我们在不同比例的训练数据(20%、40%、60%)上训练最佳模型。结果显示,即使训练数据减少,模型仍保持显著性能水平:
- 40%数据训练:TECH类别F1分数73.93%
- 60%数据训练:TECH类别F1分数79.42%
实际应用
微调后的模型可用于自动从可再生能源相关新闻文章中提取信息。通过对151篇法国可再生能源和能源初创公司相关文章的分析,我们能够:
- 提取频繁提及的公司名称(如TotalEnergies、Engie、EDF等)
- 识别热门技术领域(风能、太阳能、水力、核能等)
- 分析同一文章中组织和技术的共现关系
这种方法允许快速分析新闻媒体中的提及情况,为决策者提供行业趋势的可靠图像。通过简单测量公司和科技领域提及的共现情况,可以立即从自定义语料库中提取相关信息。
结论
该方法成功创建了专门检测可再生能源领域初创公司名称和技术领域的命名实体识别模型。我们展示了只需几千个高质量、领域特定的示例即可微调模型,并使其能够基于已吸收的模式在数据中泛化和发现新实体。
使用仅几千个示例,可以微调一个能够九成准确提取实体的模型。通过这种方法,仅花费几小时标注数据即可为分析师和决策者节省大量时间。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码