Inbox
- VibeVoice: 微软推出的音频生成模型,1.5B/7B 大小 https://github.com/microsoft/VibeVoice 语音 模型
- 支持多说话人生成、情绪识别
- 支持最高 90 min 音频生成
- 支持多语言生成
- 我模仿赖世雄风格制作了一段英文脚本,使用 VibeVoice 制作讲解的效果非常惊艳:
- 更多的例子可以看我的 VibeVoice 测试
- https://github.com/OpenMOSS/MOSS-TTSD 语音 模型
- 测试下来中英文混合不可用
-
Idea Prompt
- 我是一个中文用户,在使用youtube时,我常常观看英文视频,但我的英文又不是很好,因此观看时可能会使用youtube的自动翻译字幕功能。这个功能很不错但我发现并不能很好的帮助我学习英文——我看到的全是中文。
- 其实对我来说我能听懂很多英文,只是偶尔有时听不懂一两句话,因此在这里的需求跟看文章偶尔一两句话需要翻译很类似——但是视频中的翻译要么翻译全部、要么全是英文,并且复制、粘贴、翻译的流程很麻烦。
- 所以我想构建一个程序(或许形式是Chrome扩展)功能很简单:一个按钮,用户点击时暂停视频并且弹出「上一句话」的翻译
- https://gemini.google.com/app/ceeccae5b0ae973c