PaddleSpeech

Contents

PaddleSpeech是由百度公司开源的。

PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型，一些典型的应用示例如下：

PaddleSpeech 荣获 NAACL2022 Best Demo Award, 请访问 Arxiv 论文。

输入音频	识别结果
	I knocked at the door on the ancient side of the building.
	我认为跑步最重要的就是给我带来了身体健康。

输入音频	翻译结果
	我在这栋建筑的古老门上敲门。

输入文本	合成音频
Life was like a box of chocolates, you never know what you’re gonna get.
早上好，今天是2020/10/29，最低温度是-3°C。
季姬寂，集鸡，鸡即棘鸡。棘鸡饥叽，季姬及箕稷济鸡。鸡既济，跻姬笈，季姬忌，急咭鸡，鸡急，继圾几，季姬急，即籍箕击鸡，箕疾击几伎，伎即齑，鸡叽集几基，季姬急极屐击鸡，鸡既殛，季姬激，即记《季姬击鸡记》。
大家好，我是 parrot 虚拟老师，我们来读一首诗，我与春风皆过客，I and the spring breeze are passing by，你携秋水揽星河，you take the autumn water to take the galaxy。
宜家唔系事必要你讲，但系你所讲嘅说话将会变成呈堂证供。
各个国家有各个国家嘅国歌

输入文本	输出文本
今天的天气真不错啊你下午有空吗我想约你一起去吃饭	今天的天气真不错啊！你下午有空吗？我想约你一起去吃饭。

本项目采用了易用、高效、灵活以及可扩展的实现，旨在为工业应用、学术研究提供更好的支持，实现的功能包含训练、推断以及测试模块，以及部署过程，主要包括

📦 易用性: 安装门槛低，可使用 CLI 快速开始。
🏆 对标 SoTA: 提供了高速、轻量级模型，且借鉴了最前沿的技术。
🏆 流式 ASR 和 TTS 系统：工业级的端到端流式识别、流式合成系统。
💯 基于规则的中文前端: 我们的前端包含文本正则化和字音转换（G2P）。此外，我们使用自定义语言规则来适应中文语境。
多种工业界以及学术界主流功能支持:
- 🛎️ 典型音频任务: 本工具包提供了音频任务如音频分类、语音翻译、自动语音识别、文本转语音、语音合成、声纹识别、KWS等任务的实现。
- 🔬 主流模型及数据集: 本工具包实现了参与整条语音任务流水线的各个模块，并且采用了主流数据集如 LibriSpeech、LJSpeech、AIShell、CSMSC，详情请见模型列表。
- 🧩 级联模型应用: 作为传统语音任务的扩展，我们结合了自然语言处理、计算机视觉等任务，实现更接近实际需求的产业级应用。

相关导航