当前位置：首页 > news >正文

深度学习注意力机制新篇章

news 2025/10/20 8:05:14

《动手学深度学习》新增注意力机制章节

全球机器学习市场正在迅速扩张。根据福布斯商业洞察预测，到2027年，机器学习产品市场规模将达到1170亿美元。这种增长伴随着对机器学习技能需求的相应激增。

某中心团队通过创作《动手学深度学习》（简称D2L）这本书来帮助满足这一需求。该书于2020年出版，完全通过可独立执行的Jupyter笔记本起草，是一份活文档，每次更新都会触发PDF、HTML和笔记本版本的开源更新。

新增的“注意力机制”章节解决了经常困扰非参数机器学习模型的问题，即这些模型需要处理不同数量的信息并将其置于上下文中。

考虑人类视觉：我们的视野中可能有数百个物体，但我们的大脑知道什么是重要的，以防止感官过载。从原始的“我营地附近有老虎吗？”到现代的“我把红色咖啡杯放哪了？”都是如此。这使得人类能够即时适应信息丰富的场景。对其部分内容的关注在计算上既经济又在统计上有效。

“我们可以使用注意力机制解决计算机视觉任务，如图像识别问题，”张作者表示，“这就是为什么我们认为需要一个专门的章节来介绍这一领域的一些令人兴奋的内容。这也反映了深度学习领域如何不断发展——即使我们向书中添加新材料，也有新的发展需要跟上。”

在计算机视觉中重要的同时，注意力在自然语言处理（NLP）中也扮演着关键角色。在这些应用中，计算机的注意力可能会被引导到暗示逻辑下一个词或思想的特定词语上，例如“银行”一词后可能跟着“存款”。这加速了计算机预测或分析语音和词语的能力。事实上，现代注意力机制由Bahdanau、Cho和Bengio于2014年发明，用于处理机器翻译模型在生成翻译时必须“记住”源语句的问题。这是一个挑战，特别是对于长句。注意力允许模型不断查看源语句和已翻译内容以提高准确性。

在新章节中，《动手学深度学习》概述了可追溯到19世纪的注意力心理学研究，以及如何将我们对它的理解应用于计算机。这包括开发计算机应如何按重要性“加权”其所见内容的模型。

注意力领域的一个挑战是它仍然计算密集。近年来，“Transformer”模型应运而生，帮助应对这一挑战，该模型将高级算法应用于词语序列以确定逻辑序列。Transformer驱动着当今一些最强大的NLP模型，如GPT-3。

“Transformer已经彻底改变了NLP，”斯莫拉表示，“它们允许我高效地向前和向后跳转许多步骤——例如，在词语序列中——几乎像波形一样，而不是一次只跳一步。这创造了更多的计算效率。”

新的D2L章节涉及Transformer的关键元素以及如何将它们应用于NLP或计算机视觉问题。

注意力章节包含丰富的模型、示例和代码，学生可以在学习过程中进行实验。示例同时提供MXNet和PyTorch版本，为用户提供机器学习框架的选择。

作者们还专注于使注意力主题对学生来说易于理解。注意力可能是一个难以掌握的概念，涉及微妙的数学和有时抽象的概念。

与此同时，新章节的前三分之一已被翻译成中文和土耳其文。中国市场是《动手学深度学习》最大的市场之一，被20所大学用作教科书。土耳其语版本的出现是因为该国拥有庞大的机器学习专家社区。

作为本书的补充，D2L团队还在其YouTube频道上推出了一系列“训练营”视频教程。像许多其他在疫情期间在家工作的人一样，斯莫拉发现自己有一些空闲时间。他决定用其中一部分时间创作新视频——他11岁的女儿帮助布置场景。每个视频时长15到20分钟，以《动手学深度学习》中的相关章节为模型。

该团队正在开发《动手学深度学习》的印刷版，并正在扩展内容模型，原始作者较少关注原创内容的开发，而更多地充当更广泛机器学习社区贡献的管理者。

《动手学深度学习》的最新章节现已上线。关注@D2L_ai的Twitter获取最新更新。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码