当前位置：首页 > news >正文

NVIDIA 开源 Audio2Face：音频生成逼真面部动画；Gemini Live API 支持思考能力丨日报

news 2025/9/29 13:13:15

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01 有话题的技术

1、Google Gemini Live API 将支持「思考」能力

Google 发布了其「Gemini API」中「Live API」的重大更新。此次升级核心聚焦于大幅提升函数调用（function calling）的可靠性和增强对话的自然流畅度。

函数调用可靠性大幅提升： 新模型在识别和执行正确函数方面的准确性显著提高。内部基准测试显示，单次调用的成功率提升了 2 倍，在 5 到 10 次复杂调用场景下提升了 1.5 倍，解决了语音交互中重试机会少的核心痛点。

更自然的对话处理能力： 该模型能更好地处理用户中断、自然停顿以及无关的背景对话。例如，当用户与他人进行简短交谈时，「智能体」能够优雅地暂停并无缝恢复，无需额外配置。

即将支持「思考」能力： 将推出类似「Gemini 2.5 Flash」和「Pro」的「思考」功能。开发者可以为模型设置「思考预算」（thinkingBudget），使其在处理复杂查询时有更多时间进行深度推理，并返回思考过程的文本摘要。

真实世界应用验证： 早期合作伙伴 Ava（一个 AI 家庭操作系统）反馈，新模型在处理真实世界嘈杂输入时的首次通过准确率更高，显著加快了其多模态「智能体」产品的开发速度。

(@GoogleAIStudio@X)

2、科大讯飞开源文生音频模型 AudioFly

近期，科大讯飞开源了讯飞文生音频模型 AudioFly。AudioFly 模型可基于文本描述输入，生成 44.1kHz 采样率的高质量音频，在文本与音效的匹配度上表现优异。AudioFly 采用了潜在扩散模型（LDM）架构，经海量多元声音数据训练，支持单事件、多事件场景。

这里是一些 AudioFly 所生成的样例：

在未进行针对性微调的情况下，AudioFly 在学术数据集 AudioCaps 测试集上取得了 SOTA 指标，证明了该模型良好的推广性和鲁棒性。

AudioFly 的开源能够有效降低音效生成模型的使用门槛，开发者可以将其应用于短视频配音、有声故事生成等领域，释放更多声音创意潜力，创造出更多优质的声音内容。

02 有亮点的产品

1、微软推出 Copilot Pro 实验功能「Portraits Labs」

微软近日宣布，其正在为 Copilot Pro 用户推出一项名为 Portraits Labs 的实验性新功能。作为其中的核心部分，Copilot Portraits 已经开始向部分美国 Pro 用户在 Copilot Labs 上展示。这些「肖像」是用户未来可以进行对话的虚拟头像。

这些 Portraits 是由 VASA-1 技术驱动的 3D 虚拟头像，用户将能够通过语音模式与它们进行自然对话。该功能提供了 40 种 不同的肖像选择，目前仅在美国、英国和加拿大三个国家提供，且每位用户每日的使用时长限制为 20 分钟。