Inbox

  • VibeVoice: 微软推出的音频生成模型,1.5B/7B 大小 https://github.com/microsoft/VibeVoice 语音 模型
    • 支持多说话人生成、情绪识别
    • 支持最高 90 min 音频生成
    • 支持多语言生成
    • 我模仿赖世雄风格制作了一段英文脚本,使用 VibeVoice 制作讲解的效果非常惊艳:
  • https://github.com/OpenMOSS/MOSS-TTSD 语音 模型
    • 测试下来中英文混合不可用
  • Idea Prompt

    • 我是一个中文用户,在使用youtube时,我常常观看英文视频,但我的英文又不是很好,因此观看时可能会使用youtube的自动翻译字幕功能。这个功能很不错但我发现并不能很好的帮助我学习英文——我看到的全是中文。
    • 其实对我来说我能听懂很多英文,只是偶尔有时听不懂一两句话,因此在这里的需求跟看文章偶尔一两句话需要翻译很类似——但是视频中的翻译要么翻译全部、要么全是英文,并且复制、粘贴、翻译的流程很麻烦。
    • 所以我想构建一个程序(或许形式是Chrome扩展)功能很简单:一个按钮,用户点击时暂停视频并且弹出「上一句话」的翻译
    • https://gemini.google.com/app/ceeccae5b0ae973c