2025-08-26

VibeVoice: 微软推出的音频生成模型，1.5B/7B 大小 https://github.com/microsoft/VibeVoice 语音模型
- 支持多说话人生成、情绪识别
- 支持最高 90 min 音频生成
- 支持多语言生成
- 我模仿赖世雄风格制作了一段英文脚本，使用 VibeVoice 制作讲解的效果非常惊艳：
  - 更多的例子可以看我的 VibeVoice 测试
https://github.com/OpenMOSS/MOSS-TTSD 语音模型
- 测试下来中英文混合不可用
Idea Prompt
- 我是一个中文用户，在使用youtube时，我常常观看英文视频，但我的英文又不是很好，因此观看时可能会使用youtube的自动翻译字幕功能。这个功能很不错但我发现并不能很好的帮助我学习英文——我看到的全是中文。
- 其实对我来说我能听懂很多英文，只是偶尔有时听不懂一两句话，因此在这里的需求跟看文章偶尔一两句话需要翻译很类似——但是视频中的翻译要么翻译全部、要么全是英文，并且复制、粘贴、翻译的流程很麻烦。
- 所以我想构建一个程序（或许形式是Chrome扩展）功能很简单：一个按钮，用户点击时暂停视频并且弹出「上一句话」的翻译
- https://gemini.google.com/app/ceeccae5b0ae973c

Hzc Notes