star 58k。语音识别,语音生成文本
OpenAI的Whisper是一种基于深度学习的语音识别模型,它是一种通用的语音识别模型,可以用于语音识别、语音翻译等任务。
github : https://github.com/openai/whisper
24.1k。DeepSpeech 是一个开源的嵌入式(离线、设备上)语音到文本引擎,可以在从 Raspberry Pi 4 到高性能 GPU 服务器等各种设备上实时运行。
百度开源的音色合成工具,github star 9.8k
star 29k。Massively Multilingual Speech(MMS,大规模多语种语音)是 Meta 开源的一款全新的 AI 语言模型,可以识别 4000 多种口头语言并生成 1100 多种语音(文本到语音)
Star 27.7k。Coqui 文本转语音(Text-to-Speech,TTS)
star 9.1k
star 25.1k 。智能问答(知识库+函数调用)