当前位置: 首页 > news >正文

西工大开源 Easy Turn:全双工轮次转换检测模型;百度 MuseSteamer 引入开放世界生成能力丨日报

 

image

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、西工大ASLP开源Easy Turn:全双工对话轮次检测方案

 

西北工业大学音频语音与语言处理研究组(ASLP@NPU)开源一套轮次检测方案,包括轻量、高效、即插即用的全双工轮次转换检测模型 Easy Turn ,1145 小时的训练数据集 Easy Turn Trainset 和完备测试集 Easy Turn Testset。

 

Easy Turn 模型支持四种典型的对话轮次状态:

 

Complete:语义完整,用户已表达完毕,系统应立即回应。比如「你能给我推荐一部电影吗?」.

 

Incomplete:语义不完整,用户仍在组织语言,系统需继续倾听。比如「我想请问....」.

 

Backchannel:用户的简短反馈,如「嗯」「好的」,不应打断系统发言。

 

Wait:用户明确要求暂停或结束对话,如「对话终止」,「停一下」。

 

这些状态全面刻画了全双工人机交互中最常见的轮次转换行为,有助于模型在复杂语境下实现更自然的响应策略。

 

image

 

 

Easy Turn 的详细数据处理流程

 

Easy Turn Trainset 是论文核心资源之一,音频总时长达 1145 小时,覆盖上述四类对话轮次状态。语料由真实对话与高质量合成数据组成,其中真实部分来源于大型开源中文对话数据集 MagicData-RAMC[6],经由大语言模型交叉标注过滤以确保对话轮次状态标签的准确性;合成部分则由 DeepSeek V3 与 Qwen2.5 系列模型生成不同对话轮次状态的文本,再通过 CosyVoice 2 等语音合成(TTS)工具合成语音,并使用语音识别(ASR)模型 Paraformer 对音频进行验证,仅保留 WER=0 的样本。这种「真实+合成」结合的策略有效弥补了真实人机交互语料不足的问题,提高了模型的泛化能力。

 

(@ASLP@NPU GitHub)

 

2、Claude Haiku 4.5 发布:速度翻倍,价格直降三分之二

 

image

 

 

Anthropic 今日正式发布轻量级模型 Claude Haiku 4.5。

 

相比前代版本,新模型在保持高水准性能的同时,速度提升超过两倍,价格则下降至原来的三分之一。

 

官方数据显示,在衡量 AI 编码能力的 SWE-bench Verified 测试中,Haiku 4.5 取得了 73% 的成绩,与 Claude Sonnet 4 以及 OpenAI 最新的 GPT-5 处于同一水平。

 

在部分任务中,Haiku 4.5 甚至超越了 Sonnet 4。在实际应用场景中,Haiku 4.5 的低延迟特性尤其适合聊天助手、客服代理和结对编程等需求。

 

开发者使用 Claude Code 时,也能明显感受到多智能体协作和快速原型开发的效率提升。

 

价格方面,Haiku 4.5 的定价为每百万输入 token 1 美元、每百万输出 token 5 美元。

 

虽然相比 GPT-5 mini 或 Google Gemini 2.5 Flash 略高,但与 Sonnet 4.5 相比便宜约三倍,性能差距却不大。

 

值得注意的是,Anthropic 对 Haiku 4.5 进行了全面的安全性和对齐性测试,结果显示其不良行为发生率低于前代 Haiku 3.5,整体对齐性表现优于 Sonnet 4.5 和 Opus 4.1,被认为是目前该系列中最安全的模型

 

目前,Haiku 4.5 已通过 Claude API、Amazon Bedrock 和 Google Cloud Vertex AI 上线,全面替代 Haiku 3.5 和 Sonnet 4,成为 Anthropic 产品线中「性价比最高」的选择。

 

(@APPSO)

02有亮点的产品

1、百度 MuseSteamer 升级「视频生成」模型:实时交互式长视频与「开放世界」创作

百度 MuseSteamer 刚刚升级了实时交互式长视频生成。它打破了传统的 10 秒时长限制,能以更快的速度和更强的控制力创建任意长度的视频——用户可以在生成过程中的任何时刻暂停、改写故事情节或延长转场。

 

此次升级还引入了全新的开放世界生成能力,允许用户构建和探索由 AI 生成的空间,例如游戏地图、旅游景点,甚至是宇宙场景。

 

使用链接:https://huixiang.baidu.com/

 

(@Baidu_Inc@X)

 

2、对标 Sora 2,Google Veo 3.1 视频生成模型迎来重大升级

 

Google 今日正式发布 Veo 3.1 视频生成模型更新,在功能与模型层面均有显著提升。

 

在功能方面,Veo 3.1 首次为「素材转视频」「帧转视频」和「延展」功能加入音频支持,使创作流程更完整。

 

用户不仅可以通过多张参考图像定义角色与风格,还能利用首尾画面生成无缝过渡,或延展生成超过 1 分钟的内容。

 

在模型层面,Veo 3.1 在提示词理解和视听质量上均有明显进步,生成结果更加自然流畅。值得注意的是,新版本已支持横屏与竖屏 16:9 输出,更符合当前短视频与社交媒体的主流需求。

 

此外,Google 旗下应用 Flow 也新增「插入新元素」与「移除对象」功能,前者可自动处理光影与阴影,后者则能删除不需要的元素并重建背景,进一步提升视频编辑灵活度。

 

目前,Veo 3.1 已通过 Gemini API 与 Vertex AI 向开发者和企业用户开放,普通用户也可在 Gemini 应用中体验。

 

(@APPSO)

 

3、AI 驱动的「数字孪生」解放工作效率:初创公司 Viven 获 3500 万美元种子轮融资,解决员工「不在场」痛点

 

image

 

 

内部沟通和信息协调是项目推进的常态,然而,当掌握关键信息的员工因休假或时区差异而无法及时回复时,项目进度往往被迫停滞,造成高昂的时间成本。人工智能招聘初创公司 Eightfold 的联合创始人 Ashutosh Garg 和 Varun Kacholia 认为,利用先进的 大型语言模型 (LLM) 和 数据隐私技术 可以解决这一难题。

 

两人于今年早些时候创立了 Viven。这家数字孪生初创公司的目标是,让员工即使在同事缺席时,也能即时访问其持有的关键项目信息。

 

周三,Viven 正式走出隐身模式,宣布获得由 Khosla Ventures、Foundation Capital、FPV Ventures 等公司领投的 3500 万美元种子资金。此前,Ashutosh Garg 和 Varun Kacholia 联合创办的 Eightfold 估值已达 21 亿美元。

 

Viven 的核心技术在于为每位员工开发专门的 LLM,通过访问该员工的内部电子文档(如电子邮件、Slack 和 Google Docs),有效创建其数字孪生。组织内的其他员工可以查询该「孪生体」,从而即时获取与共同项目和共享知识相关的答案。

 

Viven 目前已被 Genpact 和 Eightfold 等多家企业客户采用。尽管未来 Anthropic、谷歌的 Gemini、微软的 Copilot 和 OpenAI 等巨头可能会进入企业数字孪生市场,Viven 希望其独特的「成对上下文和隐私」技术能成为其强大的护城河。联合创始人 Ashutosh Garg 和 Varun Kacholia 将继续领导 Eightfold,同时兼顾 Viven 的运营。

 

(@AIBase)

 

4、OpenAI CEO 官宣 ChatGPT 将支持成人内容

 

image

 

 

OpenAI CEO Sam Altman 发文宣布,ChatGPT 将会在未来几周内发布新版本,并会在 12 月推出更为全面的年龄分级,允许 ChatGPT 提供成人内容。

 

Altman 表示,此前 OpenAI 对 ChatGPT 有不少内容限制,并且对心理健康问题一直保持谨慎态度。Altman 称团队意识到这使许多没有心理健康问题的用户觉得 ChatGPT 用起来「不爽」或「不愉快」,「但鉴于问题的严重性,我们希望做到这一点。(指内容限制)」

 

目前,针对开放内容限制,Altman 透露 OpenAI 已经能够减轻严重的心理健康问题,并且拥有了新的工具,团队将能够在大多数情况下安全地放宽限制。

 

Altman 透露,未来几周内,新版本的 ChatGPT 能够实现更有「人味」的回应方式,「能用大量的 emoji,表现得像朋友一样。」同时 Altman 也强调,「这仅在你想要的情况下,而不是因为我们想要最大化使用率。」

 

同时,Altman 还宣布,ChatGPT 将会在今年 12 月推出更全面的年龄分级,并作为「将成年用户视为成年人」原则的一部分。具体来看,ChatGPT 将允许更多内容生成,例如能够为通过「成年验证」的成年人提供色情内容。

 

(@APPSO)

03有态度的观点

1、OpenAI 前主管:承认 AI 的真实性,才是人类未来的出路

 

image

 

 

日前,OpenAI 前政策总监、Anthropic 联合创始人 Jack Clark 发布了一篇个人博客,并警告人们不要低估人工智能的潜力和未知性。

 

Jack 在文中以个人童年经历作为例子:小时候在黑暗的房间里,会把椅子上的衣服、书架等看成是可怕的怪物。

 

但开灯后看清楚了物品的真相,恐惧随之消失。对此,Jack 认为,在 2025 年的今天,整个地球就是那个黑暗的房间,而那些「怪物」就是当今和未来强大且难以预测的 AI 系统。与童年不同的是,这次当我们「打开灯」时,发现这些「怪物」是真实存在的。

 

其指出,很多人宁愿相信这些强大的 AI 系统就像「椅子上的一堆衣服」一样,只是普通、无害的工具,同时还希望大家能关上灯「回去睡觉」,假装一切都没问题。

 

而 Jack 则强烈反对这种观点,他强调,大家现在面对的是一个「真实而神秘的生物」,而不仅仅是一台简单的、可预测的机器。

 

Jack 表示,就像最好的童话故事一样,这个「生物」是我们自己创造的。

 

我们唯一的出路是:承认它的真实性,克服我们自己的恐惧,从而去理解它、与它和平共处,并找出驾驭它的方法。

 

(@APPSO)

 

image

 

 

image

 

 

写在最后:

 

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

image

 

 

素材来源官方媒体/网络新闻

http://www.hskmm.com/?act=detail&tid=32656

相关文章:

  • 10/16
  • 2025.10.16总结
  • 日常生活中的AI应用记录-2
  • containerd二进制安装
  • 维修笔记 | 一例滤波电容老化引发开关电源异常现象
  • (一)GPU与CUDA概述
  • 实验1 面向对象程序设计C++
  • 练习篇:第一次markdown成果展示
  • 微软已停止对 Windows 10 系统的支持
  • DirectX RayTracing (3) 程序图元及复杂光照
  • NiN模型
  • 2025秋_13
  • 2023 ICPC Hefei
  • 斑马日记2025.10.16
  • 可能是 ICPC2025 西安站游记
  • Active Directory用户账户安全配置与漏洞防范指南
  • 实验一 现代C++编程初体验
  • day013
  • Git SSH 推送完整流程总结
  • 运筹学奖学金项目促进科研多元化发展
  • 非托管内存怎么计算?
  • ubuntu配置镜像源和配置containerd安装源
  • dotnet集合类型性能优化的两个小儿科的知识点
  • ABC420 AtCoder Beginner Contest 420 游记(VP)
  • 【题解】CF2086C Disappearing Permutation
  • Windows 事件ID + 登录类型 + 服务对应表大全
  • 5-互评-OO之接口-DAO模式代码阅读及应用
  • [Paper Reading] VLM2VEC: TRAINING VISION-LANGUAGE MODELS FOR MASSIVE MULTIMODAL EMBEDDING TASKS
  • Index of /ubuntu-cdimage/ubuntukylin/releases/
  • ubuntu安装和设置为图形界面或命令行界面