用MOSS-TTSD生成相声

昨天看到周舒畅老师的AI短剧 论视觉大模型 VLM 的轻量化,以讲相声的形式来表现,觉得很有意思,如果加上声音,就真的是一个技术领域的搞笑相声了。刚好最近出了一个开源的播客生成工具MOSS-TTSD,还没来得及试,正好借这个机会玩一玩。

选择了岳云鹏和孙越的几秒的参考音频,对上面AI短剧的内容进行格式化整理,然后直接跑MOSS-TTSD的开源代码,第一次跑就成功了,还是很丝滑的。

生成的效果如下:

视频

发音效果挺好,中文、英文单词发音都没明显问题,音色相似度差一些,孙越的参考声音换了几个都不太行,可能还有细节问题待定位。

总之,这个方向能玩的东西还是很多,未来可期。