Fish Speech(支援語音克隆的文字轉語音工具)簡介
Fish Speech 是一個開源的支援語音克隆的文字轉語音工具,號稱是最先進文字轉語音(TTS)系統,具有零樣本和少樣本語音克隆能力。只需提供 10-30 秒的語音樣本,就能生成高品質的語音合成結果。
系統最顯著的特點是其多語言和跨語言支援能力。使用者可以直接輸入多語言文字而無需考慮語言類型,目前支援英語、日語、韓語、中文、法語、德語、阿拉伯語和西班牙語等多種語言。與傳統 TTS 系統不同,Fish Speech 不依賴音素,具有強大的泛化能力,可以處理任何語言的文字。
在效能方面,Fish Speech 在處理 5 分鐘英語文字時,字符錯誤率和詞錯誤率僅為 2% 左右。使用 fish-tech 加速技術,在 RTX 4060 筆記型電腦上可實現 1:5 的即時率,在 RTX 4090 上可達到 1:15 的即時率。
Fish Speech(支援語音克隆的文字轉語音工具)官網及開源位址
- 官網:https://speech.fish.audio/
- 開源位址:https://github.com/fishaudio/fish-speech?tab=readme-ov-file
- 最新版本:https://github.com/fishaudio/fish-speech/releases
該專案提供了多種使用方式:基於 Gradio 的網頁介面支援主流瀏覽器;基於 PyQt6 的圖形介面支援 Linux、Windows 和 macOS 系統;同時還支援部署推理伺服器。最新版本還整合了 Fish Agent 功能,實現了端到端的語音互動,包含情感表達和音色控制功能。
正文完