Skip to content

介绍

Supertonic MNN 是一个基于 MNN 的高性能、轻量级文本转语音 (TTS) 推理库。它专为在移动端和嵌入式设备等各种平台上高效运行而设计,采用了 Supertonic TTS 模型架构。

主要特性

  • 极速推理: 利用 MNN 的优化技术,提供低延迟的语音生成能力。
  • 极致轻量: 依赖极少,易于部署。
  • 跨平台: 支持 Linux, macOS, 和 Windows。
  • Python API: 提供易用的 Python 接口,方便无缝集成。
  • CLI 支持: 内置命令行工具,便于快速测试和批量处理。

架构

本库由多个协同工作的 MNN 模型组成:

  • 时长预测器 (Duration Predictor): 确定音素时长。
  • 文本编码器 (Text Encoder): 将输入文本编码为嵌入向量。
  • 向量估计器 (Vector Estimator): 预测声学特征 (Latent)。
  • 声码器 (Vocoder): 将特征转换为音频波形。

快速开始

请查看 安装 指南以安装本库,或直接前往 使用指南 章节开始生成语音。

致谢

本项目基于 Supertone Inc. 的原始 Supertonic 工作。