HyperAI 每周 AI 模型更新：Irodori-TTS、SAM-Audio、MatAnyone 2、PrismAudio 等

本周更新汇集了一批实用的新 AI 演示和模型资源，尤其涵盖音频生成、语音识别、视频处理、图像理解和长文档 OCR 等方向。其中最具实用价值的项目包括用于日语语音生成的 Irodori-TTS、用于基于提示词进行声音分离的 SAM-Audio、用于干净视频抠像的 MatAnyon...

引言

本周的 HyperAI 更新聚焦于音频、视频、图像理解、OCR 和语音识别模型的强大组合。头条项目是 Irodori-TTS-500M-v3，这是一个开放的日语文本转语音模型，结合了高保真 48 kHz 语音生成、零样本声音克隆，以及通过表情符号标注实现的细粒度风格控制。

本次更新还包括用于基于提示词的音频分离、视频抠图、4D 世界模拟、视频转音频生成、文档 OCR、端侧分割、表现力音频编辑和低延迟流式 ASR 的工具。以下是对原始每周汇总的整理版，可直接用于发布，并保留了有用截图的原始上下文。

来源说明

本文基于 BAAI Hub / HyperAI 发布于的每周更新。原页面说明文章来源于微信，如有版权问题，图片可删除。

二维码、宣传海报、群邀请图片和无关推荐横幅已被有意移除。DiaMoE-TTS 和 DreamOmni2 的图片链接保留在其原始位置，但在检查过程中其预览请求超时，因此此处仅作说明，而不将其视为已完全验证的截图。

每周 HyperAI 更新概览

从 6 月 27 日到 7 月 3 日，HyperAI 在其官方网站上更新了多项公开资源：

12 篇精选公开教程
5 条热门 AI 百科条目
4 个 7 月 AI 会议截止日期

本周的主线是实践性实验。大多数条目并不只是论文介绍；它们提供了在线演示或可运行的 notebook，使用户能够快速测试模型行为。

精选公开教程

Irodori-TTS-500M-v3：支持表情符号风格控制的日语 TTS

Irodori-TTS 是开发者 Aratako 于 2026 年发布的开源日语文本转语音项目。本次重点介绍的模型 Irodori-TTS-500M-v3 面向日语语音合成、零样本声音克隆，以及由表情符号引导的语音风格控制。

该模型基于 Rectified Flow Diffusion Transformer（RF-DiT） 架构构建，并在连续的 DACVAE 潜在空间中生成语音。在实际使用中，最有趣的一点是，它可以仅通过一段很短的参考音频克隆目标声音，通常约为 3 到 10 秒，且无需额外微调。

它还支持通过表情符号标注进行风格控制。这使得该模型比基础 TTS 系统更加灵活：用户可以用更轻量的方式引导语气、情绪、语速，以及细微的非语言表达。

图片展示了Irodori-TTS-500M-v3的界面，用于日本文本到语音转换，支持表情符号风格控制。左侧有“Basic TTS”“Voice Cloning”“Emoji Guide”三个选项卡，当前选中“Basic TTS”。下方输入框显示日文文本“こんにちは、今日はいい天気ですね。”右侧是选中音频的波形图，下方有“Generate Speech”按钮。该图与上文介绍Irodori-TTS-500M-v3模型支持表情符号风格控制的内容相呼应，直观呈现了模型的实际操作界面。

MatAnyone 2：用于前景提取的视频抠图

MatAnyone 2 是由 NTU S-Lab 和商汤科技发布的视频抠图模型。它用于从视频中提取人物前景并生成 alpha 蒙版。

该模型通过使用学习型质量评估器来提升稳定性。这有助于减少边界伪影，并保留头发、半透明边缘和前景轮廓等细节。当用户希望在多人视频中分离特定人物时，它也很有用。

这张图片展示的是MatAnyone 2的演示操作界面，MatAnyone 2是用于视频前景提取的AI模型。界面上方标注了模型名称“MatAnyone 2: Video Matting”，并说明其功能是从视频中提取前景。左侧为操作面板，设有上传视频、调整参数的选项，下方还有处理状态提示；右侧则对应展示了原始输入视频帧，以及模型处理后生成的前景遮罩输出，遮罩清晰勾勒出了目标前景区域，直观呈现了该模型的视频抠图效果。

在线演示：

InSpatio-World：实时 4D 世界模拟

InSpatio-World 是 InSpatio 团队于 2026 年发布的实时 4D 世界模拟器。它可以接收输入视频和指定的相机轨迹，然后生成稳定的新视角视频。

其核心思想是让视频场景更具可控性。用户无需被动观看固定相机视角，而是可以定义相机运动，并在保持时间一致性的同时，从新视角探索场景。

图片展示了InSpatio-World实时4D世界模拟器的界面及效果。左侧为上传视频和选择相机轨迹的输入区域，下方有“Generate novel view”按钮。右侧呈现了模拟器生成的视频效果，展示了咖啡杯、面包等物品在不同角度的场景，体现了其生成稳定、可控制新视角视频的能力，与上下文介绍的InSpatio-World可将输入视频和指定相机轨迹生成稳定新视角视频的功能相契合。

DiaMoE-TTS：基于 IPA 的多方言语音合成

DiaMoE-TTS 是来自 Giant AI Lab 的多方言语音合成框架。它使用国际音标，即 IPA，作为方言语音生成的统一前端。

该模型将专家混合设计与 LoRA 和条件适配器等参数高效适配方法相结合。即使可用数据有限，这也能让系统更快适配新方言。

![图片展示了DiaMoE-TTS: Multi-Dialect Speech Synthesis的界面。]

上方介绍了基于 IPA 的 Mixture-of-Experts 设计以及 LoRA、条件适配器等参数高效适应方法。中间是“Generate Speech”按钮，下方有示例文本输入框，支持 9 种中国方言；右侧显示生成语音波形及语音参考（方言提示）。底部列出支持的方言及对应提示声音，还标注了模型使用 KPL 模型进行方言合成、生成时间等信息。该图与文档中介绍 DiaMoE-TTS 模型的内容相关，直观呈现其操作界面及功能。](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/094c618c-2830-4af5-9cdc-ca950fe12565-05-c0ba34b2-8a4a-4e6a-9d15-517f152cb52a.png)

SAM-Audio：音频中的“分割一切”

SAM-Audio 是 Meta 的音频源分离基础模型。它可以使用自然语言描述、视频中的视觉线索或选定的时间片段，从混合音频信号中分离出目标声音。

例如，用户可以描述他们想要分离的声音，如“男人说话”“狗叫”“汽车引擎”或“钢琴演奏”。随后，模型会尝试从混合音频中的其他声音里分离出目标音频。

这张图片是 Meta 的 SAM-Audio 模型操作界面截图，对应文档中“SAM-Audio：音频中的‘分割一切’”的内容展示。界面用于实现音频源分离，左侧设置了两种输入音轨的波形，下方的“Sound Description”输入框填写了示例指令“man speaking”，还有“Enable Span Prediction”的勾选选项，底部设有橙色的“Separate Sound”操作按钮；右侧则对应展示处理后的目标声音输出波形，下方还附有示例描述的分类列表，涵盖人声、动物声、乐器声等不同类别的待分离声音示例。

PrismAudio：基于分解式思维链和多维奖励的视频转音频生成

PrismAudio 是通义实验室推出的视频转音频生成模型。它专注于生成与视频的视觉场景、时序、氛围和空间感相匹配的音频。

该模型引入了分解式思维链规划流程。它并不把视频转音频生成视为单一推理步骤，而是将该过程拆分为语义、时间、美学和空间等维度。每个维度都配有用于强化学习的针对性奖励信号。

图片展示了 PrismAudio 视频转音频生成模型的界面。左侧为输入区域，有“Upload Video”按钮，下方是视频预览窗口，视频内容为一位女士坐在长椅上。下方还有“Caption / Prompt”区域，示例文本为“A girl in the rain”。右侧是运行日志，显示视频准备、检查时长等步骤。底部是输出区域，呈现了生成的音频和视频。该图直观呈现了 PrismAudio 模型的视频转音频生成流程及效果，与文档中对 PrismAudio 模型的介绍相呼应。

DreamOmni2：基于多模态指令的图像编辑与生成

DreamOmni2 是香港中文大学 JIA Lab 推出的多模态图像编辑与生成模型。该模型已被 CVPR 2026 接收为 Highlight 论文。

该模型基于 FLUX.1-Kontext-dev 构建，并使用微调后的 Qwen2.5-VL-7B 视觉语言模型处理指令。它支持将自然语言提示与参考图像结合使用，因此适用于对象替换、风格迁移、姿态模仿和概念驱动生成等任务。

图片展示了 DreamOmni2 模型的编辑与生成示例。上方左侧为原始街道场景图，右侧为人物照片；下方为编辑结果，人物站在街道场景中，背景与人物融合自然。图片与上下文紧密相关，直观呈现了 DreamOmni2 支持自然语言提示与参考图像，可进行对象替换、风格转换、姿势模仿等任务，适用于多模态指令驱动的图像编辑和生成。

PixelRefer：面向图像和视频的细粒度对象理解

PixelRefer 是阿里巴巴达摩院推出的统一图像与视频对象理解框架。它专注于细粒度的对象中心理解，而不仅仅是描述整个场景。

该框架支持区域级指向、图像描述和问答。它还引入了尺度自适应对象分词器，以及更轻量的 PixelRefer-Lite 变体，使对象表示更加紧凑高效。

图片展示了 PixelRefer 模型的演示界面。上方标题为“Spatial-temporal object referring with arbitrary granularity”。画面中呈现了一张城市景观图片，图中有布鲁克林大桥、摩天大楼等。下方有“Image”和“Video”选项卡，当前选中“Image”。界面底部有“Generate Caption”按钮，以及“Model Status”区域。该图片与文档中介绍的 PixelRefer 模型相关，直观呈现了其在图像理解方面的应用，支持区域级指针、描述和问答等功能。

Unlimited-OCR：一次性长文档 OCR 与版面解析

Unlimited-OCR 是百度于 2026 年发布的 OCR 与文档版面解析项目。它面向长文档解析而设计，而不仅仅是单页识别。

该项目可以处理单个文档图像、多页图像以及从 PDF 转换而来的页面。它尤其适用于论文、报告、扫描文档、长表格和多页结构化材料。

图片展示了百度于 2026 年发布的 Unlimited-OCR 项目界面。左侧为文档上传区域，提示“Drop your document here”或“or click anywhere to browse”，并有“PDF”“image”“text”选项。右侧为 OCR 输出显示区，提示“OCR output will appear here”及“Use a document size greater than 1MB”。该图片与上下文紧密相关，直观呈现了 Unlimited-OCR 项目处理文档的界面，说明其可处理单文档图像、多页图像及 PDF 转换页面，尤其适用于论文、报告等材料。

EdgeTAM：面向边缘设备的可提示图像与视频分割

EdgeTAM 是由 Meta Reality Labs 和 NTU S-Lab 开发的端侧 Track Anything Model。它面向资源受限设备设计，同时保留了 SAM 风格模型的交互式分割能力。

该模型通过 2D Spatial Perceiver 和蒸馏流水线降低了 SAM 2 的内存注意力瓶颈。在实际应用中，这意味着它可以支持可提示的

在边缘硬件上更高效地进行分割和视频对象跟踪。

图片展示了 EdgeTAM 模型的演示界面，标题为“EdgeTAM: On-Device Track Anything Model”。左侧为输入部分，上方有“Choose Image”按钮，下方显示“16943930.png”图像，图像中有一个蓝色的无限符号图案。右侧为结果部分，显示了对无限符号图案的分割效果，有前景（包含）和背景（排除）选项，下方有“Score: 0.6992 | Mask area: 5774 pixels”等信息，还有“Reset All Points”和“Undo Last Point”按钮。该图直观呈现了 EdgeTAM 模型在图像分割方面的应用效果。

Step-Audio-EditX：零样本语音克隆与富有表现力的音频编辑

Step-Audio-EditX 是来自 StepFun 的音频编辑模型。它将基于大语言模型的 30 亿参数音频模型与强化学习相结合，支持零样本语音克隆和富有表现力的音频编辑。

该模型可处理普通话、英语、四川话、粤语、日语和韩语。它面向情感控制、说话风格编辑、副语言编辑以及迭代式音频优化等任务而构建。

图片展示了 Step-Audio-EditX 模型的界面，用于零样本语音克隆和表达性音频编辑。界面分为“Voice Cloning”和“Audio Editing”两个标签，当前选中“Voice Cloning”。左侧有“Input Audio (Reference Voice)”输入框，下方是“Target Text (Text to Synthesize)”输入区域，示例文本为“Hi, the weather is good today.”，底部有“CLONE”按钮。右侧是“Cloned Audio Output”区域，显示克隆音频波形及进度条，底部提示“Clone completed. Output duration: 4.2s”。该图直观呈现了模型操作界面及效果。

Nemotron 3.5 ASR Streaming 0.6B：轻量级流式语音识别

Nemotron 3.5 ASR Streaming 0.6B 是来自 NVIDIA 的自动语音识别模型。它面向低延迟流式转录而构建，并采用具备缓存感知能力的 FastConformer-RNNT 架构。

其关键设计在于上下文复用。在流式推理过程中，模型会复用编码器上下文，而不是重新计算重叠的音频片段，这有助于减少冗余计算并提升实时性能。

图片展示了 Nemotron 3.5 ASR Streaming 0.6B 自动语音识别模型的界面。上方提示上传或录制短语音片段以用 CPU 演示。中部有音频波形图，下方有目标语言选择框，当前选中 en-US，还有注意力上下文大小框，显示 56.13。底部橙色区域为“Transcribe”按钮，下方是转录文本区域，显示一段关于乡村道路和学校教室的描述。该图与上下文介绍的 Nemotron 3.5 ASR Streaming 0.6B 模型相关，直观呈现了其操作界面及转录功能。

7 月 AI 会议截止日期

原始更新还列出了 7 月若干 AI 与计算机科学会议的截止日期。所有截止时间均标注为 AoE 时间。

日期	时间	会议
7 月 09 日	23:59:59	POPL 2027
7 月 10 日	23:59:59	ICSE 2027
7 月 17 日	23:59:59	SIGMOD 2027
7 月 28 日	23:59:59	AAAI 2027

关于 HyperAI

HyperAI 是一个人工智能与高性能计算社区。其网站为开发者、研究人员和 AI 学习者提供公开资源。

根据原始来源，HyperAI 已经收集或支持：

2,100+ 个带有国内加速节点的公开数据集
700+ 门经典和热门在线教程
300+ 个 AI4Science 论文案例研究
700+ 个 AI 相关百科词条
完整的 Apache TVM 中文文档镜像

常见问题

什么是 Irodori-TTS-500M-v3？

Irodori-TTS-500M-v3 是一个基于 RF-DiT 架构的开源日语文本转语音模型。它支持日语语音生成、短参考音频零样本语音克隆，以及基于表情符号的风格控制。

Irodori-TTS 能否在不进行微调的情况下克隆声音？

可以。原始更新将 Irodori-TTS 描述为支持通过一段较短的参考音频片段进行零样本语音克隆，通常约为 3 到 10 秒。效果仍取决于参考音频的质量和清晰度。

SAM-Audio 用于什么？

SAM-Audio 用于基于提示的音频源分离。用户可以描述想要提取的声音、提供视觉线索，或指定时间范围，以便从混合录音中分离出目标声音。

视频抠像和视频分割有什么区别？

视频分割通常将对象划分为区域或掩码，而视频抠像会估计更精细的 Alpha 遮罩。对于干净的前景提取、头发细节、半透明边缘和合成而言，抠像尤其重要。

PrismAudio 生成什么？

PrismAudio 为视频生成音频。它会尝试让生成的声音与视频的语义内容、时间节奏、审美感受和空间线索对齐。

为什么 Unlimited-OCR 对长文档有用？

Unlimited-OCR 专为长时程解析而设计，而不仅仅是孤立的单页 OCR。在处理论文、报告、扫描文件、长表格或由多页 PDF 转换而来的图像时，它会很有用。

Nemotron 3.5 ASR Streaming 0.6B 适合实时语音转录吗？

是的，它专为低延迟设计。

流式 ASR。其具备缓存感知能力的 FastConformer-RNNT 架构会在流式推理过程中复用上下文，从而帮助减少冗余计算。

总结

本周更新汇集了一批实用的新 AI 演示和模型资源，尤其聚焦于音频生成、语音识别、视频处理、图像理解和长文档 OCR。

最具实用性的条目包括用于日语语音生成的 Irodori-TTS、用于基于提示的声音分离的 SAM-Audio、用于干净视频抠像的 MatAnyone 2、用于长文档的 Unlimited-OCR，以及用于流式语音识别的 Nemotron 3.5 ASR。

总体而言，这份汇总适合希望快速了解哪些新 AI 模型值得测试、各自能做什么以及在哪里试用的读者。

HyperAI 每周 AI 模型更新：Irodori-TTS、SAM-Audio、MatAnyone 2、PrismAudio 等

引言

来源说明

每周 HyperAI 更新概览

精选公开教程

热门百科词条

7 月 AI 会议截止日期

关于 HyperAI

常见问题

什么是 Irodori-TTS-500M-v3？

Irodori-TTS 能否在不进行微调的情况下克隆声音？

SAM-Audio 用于什么？

视频抠像和视频分割有什么区别？

PrismAudio 生成什么？

为什么 Unlimited-OCR 对长文档有用？

Nemotron 3.5 ASR Streaming 0.6B 适合实时语音转录吗？

相关工具

相关链接

总结

Artigos relacionados

Claude Fable 5 sofre jailbreak novamente: o que o teste de 20 horas revela

DeepSeek DSpark chega ao Apple Silicon: aceleração de LLMs locais no Mac com mlx-dspark

Prévia do GPT-5.6 Sol: como modelos de IA mais poderosos vão transformar a produção de conteúdo para sites