介绍
PaddleSpeech是由百度公司开源的。
PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型,一些典型的应用示例如下:
PaddleSpeech 荣获 NAACL2022 Best Demo Award, 请访问 Arxiv 论文。
效果展示
语音识别
语音翻译 (英译中)
语音合成
更多合成音频,可以参考 PaddleSpeech 语音合成音频示例。
标点恢复
输入文本 | 输出文本 |
---|---|
今天的天气真不错啊你下午有空吗我想约你一起去吃饭 | 今天的天气真不错啊!你下午有空吗?我想约你一起去吃饭。 |
特性
本项目采用了易用、高效、灵活以及可扩展的实现,旨在为工业应用、学术研究提供更好的支持,实现的功能包含训练、推断以及测试模块,以及部署过程,主要包括
- 📦 易用性: 安装门槛低,可使用 CLI 快速开始。
- 🏆 对标 SoTA: 提供了高速、轻量级模型,且借鉴了最前沿的技术。
- 🏆 流式 ASR 和 TTS 系统:工业级的端到端流式识别、流式合成系统。
- 💯 基于规则的中文前端: 我们的前端包含文本正则化和字音转换(G2P)。此外,我们使用自定义语言规则来适应中文语境。
- 多种工业界以及学术界主流功能支持:
- 🛎️ 典型音频任务: 本工具包提供了音频任务如音频分类、语音翻译、自动语音识别、文本转语音、语音合成、声纹识别、KWS等任务的实现。
- 🔬 主流模型及数据集: 本工具包实现了参与整条语音任务流水线的各个模块,并且采用了主流数据集如 LibriSpeech、LJSpeech、AIShell、CSMSC,详情请见 模型列表。
- 🧩 级联模型应用: 作为传统语音任务的扩展,我们结合了自然语言处理、计算机视觉等任务,实现更接近实际需求的产业级应用。