当前位置：首页 > news >正文

西工大开源 Easy Turn：全双工轮次转换检测模型；百度 MuseSteamer 引入开放世界生成能力丨日报

news 2025/10/17 0:05:06

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、西工大ASLP开源Easy Turn：全双工对话轮次检测方案

西北工业大学音频语音与语言处理研究组（ASLP@NPU）开源一套轮次检测方案，包括轻量、高效、即插即用的全双工轮次转换检测模型 Easy Turn ，1145 小时的训练数据集 Easy Turn Trainset 和完备测试集 Easy Turn Testset。

Easy Turn 模型支持四种典型的对话轮次状态：

Complete：语义完整，用户已表达完毕，系统应立即回应。比如「你能给我推荐一部电影吗？」.

Incomplete：语义不完整，用户仍在组织语言，系统需继续倾听。比如「我想请问....」.

Backchannel：用户的简短反馈，如「嗯」「好的」，不应打断系统发言。

Wait：用户明确要求暂停或结束对话，如「对话终止」，「停一下」。

这些状态全面刻画了全双工人机交互中最常见的轮次转换行为，有助于模型在复杂语境下实现更自然的响应策略。

Easy Turn 的详细数据处理流程

Easy Turn Trainset 是论文核心资源之一，音频总时长达 1145 小时，覆盖上述四类对话轮次状态。语料由真实对话与高质量合成数据组成，其中真实部分来源于大型开源中文对话数据集 MagicData-RAMC[6]，经由大语言模型交叉标注过滤以确保对话轮次状态标签的准确性；合成部分则由 DeepSeek V3 与 Qwen2.5 系列模型生成不同对话轮次状态的文本，再通过 CosyVoice 2 等语音合成（TTS）工具合成语音，并使用语音识别（ASR）模型 Paraformer 对音频进行验证，仅保留 WER=0 的样本。这种「真实+合成」结合的策略有效弥补了真实人机交互语料不足的问题，提高了模型的泛化能力。

(@ASLP@NPU GitHub)

2、Claude Haiku 4.5 发布：速度翻倍，价格直降三分之二

Anthropic 今日正式发布轻量级模型 Claude Haiku 4.5。

相比前代版本，新模型在保持高水准性能的同时，速度提升超过两倍，价格则下降至原来的三分之一。

官方数据显示，在衡量 AI 编码能力的 SWE-bench Verified 测试中，Haiku 4.5 取得了 73% 的成绩，与 Claude Sonnet 4 以及 OpenAI 最新的 GPT-5 处于同一水平。

在部分任务中，Haiku 4.5 甚至超越了 Sonnet 4。在实际应用场景中，Haiku 4.5 的低延迟特性尤其适合聊天助手、客服代理和结对编程等需求。

开发者使用 Claude Code 时，也能明显感受到多智能体协作和快速原型开发的效率提升。

价格方面，Haiku 4.5 的定价为每百万输入 token 1 美元、每百万输出 token 5 美元。

虽然相比 GPT-5 mini 或 Google Gemini 2.5 Flash 略高，但与 Sonnet 4.5 相比便宜约三倍，性能差距却不大。

值得注意的是，Anthropic 对 Haiku 4.5 进行了全面的安全性和对齐性测试，结果显示其不良行为发生率低于前代 Haiku 3.5，整体对齐性表现优于 Sonnet 4.5 和 Opus 4.1，被认为是目前该系列中最安全的模型。

目前，Haiku 4.5 已通过 Claude API、Amazon Bedrock 和 Google Cloud Vertex AI 上线，全面替代 Haiku 3.5 和 Sonnet 4，成为 Anthropic 产品线中「性价比最高」的选择。

（@APPSO）

02有亮点的产品

1、百度 MuseSteamer 升级「视频生成」模型：实时交互式长视频与「开放世界」创作

百度 MuseSteamer 刚刚升级了实时交互式长视频生成。它打破了传统的 10 秒时长限制，能以更快的速度和更强的控制力创建任意长度的视频——用户可以在生成过程中的任何时刻暂停、改写故事情节或延长转场。

此次升级还引入了全新的开放世界生成能力，允许用户构建和探索由 AI 生成的空间，例如游戏地图、旅游景点，甚至是宇宙场景。

使用链接：https://huixiang.baidu.com/

(@Baidu_Inc@X)

2、对标 Sora 2，Google Veo 3.1 视频生成模型迎来重大升级

Google 今日正式发布 Veo 3.1 视频生成模型更新，在功能与模型层面均有显著提升。

在功能方面，Veo 3.1 首次为「素材转视频」「帧转视频」和「延展」功能加入音频支持，使创作流程更完整。

用户不仅可以通过多张参考图像定义角色与风格，还能利用首尾画面生成无缝过渡，或延展生成超过 1 分钟的内容。

在模型层面，Veo 3.1 在提示词理解和视听质量上均有明显进步，生成结果更加自然流畅。值得注意的是，新版本已支持横屏与竖屏 16:9 输出，更符合当前短视频与社交媒体的主流需求。

此外，Google 旗下应用 Flow 也新增「插入新元素」与「移除对象」功能，前者可自动处理光影与阴影，后者则能删除不需要的元素并重建背景，进一步提升视频编辑灵活度。

目前，Veo 3.1 已通过 Gemini API 与 Vertex AI 向开发者和企业用户开放，普通用户也可在 Gemini 应用中体验。

(@APPSO)

3、AI 驱动的「数字孪生」解放工作效率：初创公司 Viven 获 3500 万美元种子轮融资，解决员工「不在场」痛点

内部沟通和信息协调是项目推进的常态，然而，当掌握关键信息的员工因休假或时区差异而无法及时回复时，项目进度往往被迫停滞，造成高昂的时间成本。人工智能招聘初创公司 Eightfold 的联合创始人 Ashutosh Garg 和 Varun Kacholia 认为，利用先进的大型语言模型（LLM）和数据隐私技术可以解决这一难题。

两人于今年早些时候创立了 Viven。这家数字孪生初创公司的目标是，让员工即使在同事缺席时，也能即时访问其持有的关键项目信息。

周三，Viven 正式走出隐身模式，宣布获得由 Khosla Ventures、Foundation Capital、FPV Ventures 等公司领投的 3500 万美元种子资金。此前，Ashutosh Garg 和 Varun Kacholia 联合创办的 Eightfold 估值已达 21 亿美元。

Viven 的核心技术在于为每位员工开发专门的 LLM，通过访问该员工的内部电子文档（如电子邮件、Slack 和 Google Docs），有效创建其数字孪生。组织内的其他员工可以查询该「孪生体」，从而即时获取与共同项目和共享知识相关的答案。

Viven 目前已被 Genpact 和 Eightfold 等多家企业客户采用。尽管未来 Anthropic、谷歌的 Gemini、微软的 Copilot 和 OpenAI 等巨头可能会进入企业数字孪生市场，Viven 希望其独特的「成对上下文和隐私」技术能成为其强大的护城河。联合创始人 Ashutosh Garg 和 Varun Kacholia 将继续领导 Eightfold，同时兼顾 Viven 的运营。

(@AIBase)

4、OpenAI CEO 官宣 ChatGPT 将支持成人内容