当前位置：首页 > news >正文

计算机视觉的现状与未来挑战

news 2025/10/8 20:10:10

CVPR：理解图像意味着理解世界

某中心零售部门高级首席科学家Aleix M. Martinez在1990年代末首次参加计算机视觉与模式识别会议（CVPR）时，还是一名研究生。“天啊，从那以后我几乎参加了所有会议，”他说。

在此期间，他曾多次担任会议领域主席，并在2014年会议于俄亥俄州哥伦布市举办时担任会议组织者。Martinez同时还在俄亥俄州立大学担任教职。

他也见证了深度学习如何彻底改变计算机视觉领域，以至于他首次参会时定义的许多问题几乎都已得到解决。但Martinez表示，这些问题已被更加丰富和复杂的新问题所取代。

“作为教授，我在计算机视觉、机器学习以及认知科学方面做了很多工作，”Martinez说，“原因是我个人认为，如果我们不了解大脑，就无法解决所有这些复杂问题。”

“例如，我多年研究的一个课题是如何解读非语言信号，包括面部和身体动作。过去人们认为人们会通过面部表情传达情感类别。而我们的研究团队通过多年研究证明事实并非如此。”

“我有一篇论文中的例子显示，你只能看到一个男人通红的脸，正在疯狂尖叫。给人们看这张图片，他们会说这个人对某事非常愤怒——一种非常负面的情绪。但当你展示完整图片时，那是一名足球运动员张开双臂奔跑、疯狂尖叫，背景中可以看到守门员倒在地上，球在视线内。在上下文中看，你就会明白那不是愤怒的人；那是一个正在庆祝进球非常开心的人。”

“这是人类认知的复杂性，凭借我们现有的计算机视觉和机器学习方法无法实现。你没有包含所有这些知识和概念。你需要理解足球是什么以及如何比赛。你需要理解有两个球队，如果你远离对方守门员奔跑，而守门员失望，你就是在庆祝。我们认为这些理所当然，但它们非常复杂。”

“我们展示的另一个重要变量是面部血流。当你内心体验情感时，身体会释放所谓的肽类，包括睾酮和皮质醇等激素。这实际上会改变身体的血液流动和血液成分。由于面部充满大量血管，当你体验情感时，面部颜色会脉动。我们实际上证明了人类使用这种信号来解读你的体验。”

“直到我们在《美国国家科学院院刊》上发表这项研究之前，甚至没有人知道这种信号存在。我们一直在使用它，却不知道自己在使用它。关于我们解读世界的方式，还有多少这样的未知数？我们甚至不知道有多少未知数。”

“人们都在讨论‘机器学习何时能达到人类智能？’嗯，这是个无关紧要的问题。目前，我们无法达到人类水平的智能，因为我们不知道人类智能是什么。认知科学家、神经科学家写了500页、700页的书试图解释人类智能是什么。那不是定义。那是一本700页的书。”

“我希望看到CVPR社区更多帮助理解人类智能是什么，并更多努力尝试模仿这些事物——包括推理。”

视觉购物

在某中心，Martinez领导一个团队使用计算机视觉使某中心商店的客户购物更加方便和愉快。例如，该团队的一个项目是“可购物图像”，即房间图像，点击物体将显示相关产品信息。计算机视觉算法识别与图像中相似的产品。

“想法是，类似于你去实体店时，走过一系列装饰着许多产品的展示厅，当你找到喜欢的东西时，可以点击特定产品找到相似物品，”Martinez解释道。

可购物图像于2020年推出，今年，Martinez的团队将相同功能扩展到产品详情页面上的图像，使客户能够点击仅仅是扶手椅产品拍摄装饰的灯具。

Martinez表示，目前团队正在开发结合计算机视觉和产品目录中规格的算法，自动在图像上叠加指示产品尺寸的方向箭头。他们还在探索使用生成对抗网络（GAN）合成虚拟展示厅，以扩大客户可用的可购物内容量。

“生成模型在生成单物体图像方面非常出色，如人脸、猫、狗、汽车，”Martinez说，“我感兴趣的是，‘我们能生成具有多个物体、多个活动的真实场景吗？’你能绘制人们有意义地互动的画面，看起来真实吗？你能不仅描述名词——在我们的案例中是产品——还能描述动作，即词典中的动词吗？你能编辑这些图像创建展示视角变化或照明变化的视频吗？这些是科学界尚未完全解决的问题。我认为我们已经足够成熟，可以开始思考并可能解决其中一些问题。”
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码