用MOSS-TTSD生成相声

发表于 2025-07-06 更新于 2025-08-03 阅读次数：阅读次数：

昨天看到周舒畅老师的AI短剧论视觉大模型 VLM 的轻量化，以讲相声的形式来表现，觉得很有意思，如果加上声音，就真的是一个技术领域的搞笑相声了。刚好最近出了一个开源的播客生成工具MOSS-TTSD，还没来得及试，正好借这个机会玩一玩。

选择了岳云鹏和孙越的几秒的参考音频，对上面AI短剧的内容进行格式化整理，然后直接跑MOSS-TTSD的开源代码，第一次跑就成功了，还是很丝滑的。

生成的效果如下：

发音效果挺好，中文、英文单词发音都没明显问题，音色相似度差一些，孙越的参考声音换了几个都不太行，可能还有细节问题待定位。

总之，这个方向能玩的东西还是很多，未来可期。