开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、西工大ASLP开源Easy Turn:全双工对话轮次检测方案
西北工业大学音频语音与语言处理研究组(ASLP@NPU)开源一套轮次检测方案,包括轻量、高效、即插即用的全双工轮次转换检测模型 Easy Turn ,1145 小时的训练数据集 Easy Turn Trainset 和完备测试集 Easy Turn Testset。
Easy Turn 模型支持四种典型的对话轮次状态:
Complete:语义完整,用户已表达完毕,系统应立即回应。比如「你能给我推荐一部电影吗?」.
Incomplete:语义不完整,用户仍在组织语言,系统需继续倾听。比如「我想请问....」.
Backchannel:用户的简短反馈,如「嗯」「好的」,不应打断系统发言。
Wait:用户明确要求暂停或结束对话,如「对话终止」,「停一下」。
这些状态全面刻画了全双工人机交互中最常见的轮次转换行为,有助于模型在复杂语境下实现更自然的响应策略。
Easy Turn 的详细数据处理流程
Easy Turn Trainset 是论文核心资源之一,音频总时长达 1145 小时,覆盖上述四类对话轮次状态。语料由真实对话与高质量合成数据组成,其中真实部分来源于大型开源中文对话数据集 MagicData-RAMC[6],经由大语言模型交叉标注过滤以确保对话轮次状态标签的准确性;合成部分则由 DeepSeek V3 与 Qwen2.5 系列模型生成不同对话轮次状态的文本,再通过 CosyVoice 2 等语音合成(TTS)工具合成语音,并使用语音识别(ASR)模型 Paraformer 对音频进行验证,仅保留 WER=0 的样本。这种「真实+合成」结合的策略有效弥补了真实人机交互语料不足的问题,提高了模型的泛化能力。
(@ASLP@NPU GitHub)
2、Claude Haiku 4.5 发布:速度翻倍,价格直降三分之二
Anthropic 今日正式发布轻量级模型 Claude Haiku 4.5。
相比前代版本,新模型在保持高水准性能的同时,速度提升超过两倍,价格则下降至原来的三分之一。
官方数据显示,在衡量 AI 编码能力的 SWE-bench Verified 测试中,Haiku 4.5 取得了 73% 的成绩,与 Claude Sonnet 4 以及 OpenAI 最新的 GPT-5 处于同一水平。
在部分任务中,Haiku 4.5 甚至超越了 Sonnet 4。在实际应用场景中,Haiku 4.5 的低延迟特性尤其适合聊天助手、客服代理和结对编程等需求。
开发者使用 Claude Code 时,也能明显感受到多智能体协作和快速原型开发的效率提升。
价格方面,Haiku 4.5 的定价为每百万输入 token 1 美元、每百万输出 token 5 美元。
虽然相比 GPT-5 mini 或 Google Gemini 2.5 Flash 略高,但与 Sonnet 4.5 相比便宜约三倍,性能差距却不大。
值得注意的是,Anthropic 对 Haiku 4.5 进行了全面的安全性和对齐性测试,结果显示其不良行为发生率低于前代 Haiku 3.5,整体对齐性表现优于 Sonnet 4.5 和 Opus 4.1,被认为是目前该系列中最安全的模型。
目前,Haiku 4.5 已通过 Claude API、Amazon Bedrock 和 Google Cloud Vertex AI 上线,全面替代 Haiku 3.5 和 Sonnet 4,成为 Anthropic 产品线中「性价比最高」的选择。
(@APPSO)
02有亮点的产品
1、百度 MuseSteamer 升级「视频生成」模型:实时交互式长视频与「开放世界」创作
百度 MuseSteamer 刚刚升级了实时交互式长视频生成。它打破了传统的 10 秒时长限制,能以更快的速度和更强的控制力创建任意长度的视频——用户可以在生成过程中的任何时刻暂停、改写故事情节或延长转场。
此次升级还引入了全新的开放世界生成能力,允许用户构建和探索由 AI 生成的空间,例如游戏地图、旅游景点,甚至是宇宙场景。
使用链接:https://huixiang.baidu.com/
(@Baidu_Inc@X)
2、对标 Sora 2,Google Veo 3.1 视频生成模型迎来重大升级
Google 今日正式发布 Veo 3.1 视频生成模型更新,在功能与模型层面均有显著提升。
在功能方面,Veo 3.1 首次为「素材转视频」「帧转视频」和「延展」功能加入音频支持,使创作流程更完整。
用户不仅可以通过多张参考图像定义角色与风格,还能利用首尾画面生成无缝过渡,或延展生成超过 1 分钟的内容。
在模型层面,Veo 3.1 在提示词理解和视听质量上均有明显进步,生成结果更加自然流畅。值得注意的是,新版本已支持横屏与竖屏 16:9 输出,更符合当前短视频与社交媒体的主流需求。
此外,Google 旗下应用 Flow 也新增「插入新元素」与「移除对象」功能,前者可自动处理光影与阴影,后者则能删除不需要的元素并重建背景,进一步提升视频编辑灵活度。
目前,Veo 3.1 已通过 Gemini API 与 Vertex AI 向开发者和企业用户开放,普通用户也可在 Gemini 应用中体验。
(@APPSO)
3、AI 驱动的「数字孪生」解放工作效率:初创公司 Viven 获 3500 万美元种子轮融资,解决员工「不在场」痛点
内部沟通和信息协调是项目推进的常态,然而,当掌握关键信息的员工因休假或时区差异而无法及时回复时,项目进度往往被迫停滞,造成高昂的时间成本。人工智能招聘初创公司 Eightfold 的联合创始人 Ashutosh Garg 和 Varun Kacholia 认为,利用先进的 大型语言模型 (LLM) 和 数据隐私技术 可以解决这一难题。
两人于今年早些时候创立了 Viven。这家数字孪生初创公司的目标是,让员工即使在同事缺席时,也能即时访问其持有的关键项目信息。
周三,Viven 正式走出隐身模式,宣布获得由 Khosla Ventures、Foundation Capital、FPV Ventures 等公司领投的 3500 万美元种子资金。此前,Ashutosh Garg 和 Varun Kacholia 联合创办的 Eightfold 估值已达 21 亿美元。
Viven 的核心技术在于为每位员工开发专门的 LLM,通过访问该员工的内部电子文档(如电子邮件、Slack 和 Google Docs),有效创建其数字孪生。组织内的其他员工可以查询该「孪生体」,从而即时获取与共同项目和共享知识相关的答案。
Viven 目前已被 Genpact 和 Eightfold 等多家企业客户采用。尽管未来 Anthropic、谷歌的 Gemini、微软的 Copilot 和 OpenAI 等巨头可能会进入企业数字孪生市场,Viven 希望其独特的「成对上下文和隐私」技术能成为其强大的护城河。联合创始人 Ashutosh Garg 和 Varun Kacholia 将继续领导 Eightfold,同时兼顾 Viven 的运营。
(@AIBase)
4、OpenAI CEO 官宣 ChatGPT 将支持成人内容
OpenAI CEO Sam Altman 发文宣布,ChatGPT 将会在未来几周内发布新版本,并会在 12 月推出更为全面的年龄分级,允许 ChatGPT 提供成人内容。
Altman 表示,此前 OpenAI 对 ChatGPT 有不少内容限制,并且对心理健康问题一直保持谨慎态度。Altman 称团队意识到这使许多没有心理健康问题的用户觉得 ChatGPT 用起来「不爽」或「不愉快」,「但鉴于问题的严重性,我们希望做到这一点。(指内容限制)」
目前,针对开放内容限制,Altman 透露 OpenAI 已经能够减轻严重的心理健康问题,并且拥有了新的工具,团队将能够在大多数情况下安全地放宽限制。
Altman 透露,未来几周内,新版本的 ChatGPT 能够实现更有「人味」的回应方式,「能用大量的 emoji,表现得像朋友一样。」同时 Altman 也强调,「这仅在你想要的情况下,而不是因为我们想要最大化使用率。」
同时,Altman 还宣布,ChatGPT 将会在今年 12 月推出更全面的年龄分级,并作为「将成年用户视为成年人」原则的一部分。具体来看,ChatGPT 将允许更多内容生成,例如能够为通过「成年验证」的成年人提供色情内容。
(@APPSO)
03有态度的观点
1、OpenAI 前主管:承认 AI 的真实性,才是人类未来的出路
日前,OpenAI 前政策总监、Anthropic 联合创始人 Jack Clark 发布了一篇个人博客,并警告人们不要低估人工智能的潜力和未知性。
Jack 在文中以个人童年经历作为例子:小时候在黑暗的房间里,会把椅子上的衣服、书架等看成是可怕的怪物。
但开灯后看清楚了物品的真相,恐惧随之消失。对此,Jack 认为,在 2025 年的今天,整个地球就是那个黑暗的房间,而那些「怪物」就是当今和未来强大且难以预测的 AI 系统。与童年不同的是,这次当我们「打开灯」时,发现这些「怪物」是真实存在的。
其指出,很多人宁愿相信这些强大的 AI 系统就像「椅子上的一堆衣服」一样,只是普通、无害的工具,同时还希望大家能关上灯「回去睡觉」,假装一切都没问题。
而 Jack 则强烈反对这种观点,他强调,大家现在面对的是一个「真实而神秘的生物」,而不仅仅是一台简单的、可预测的机器。
Jack 表示,就像最好的童话故事一样,这个「生物」是我们自己创造的。
我们唯一的出路是:承认它的真实性,克服我们自己的恐惧,从而去理解它、与它和平共处,并找出驾驭它的方法。
(@APPSO)
写在最后:
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻