Fish Speech – 支援語音克隆的文字轉語音工具

43次閱讀
尚無留言

Fish Speech(支援語音克隆的文字轉語音工具)簡介

Fish Speech 是一個開源的支援語音克隆的文字轉語音工具,號稱是最先進文字轉語音(TTS)系統,具有零樣本和少樣本語音克隆能力。只需提供 10-30 秒的語音樣本,就能生成高品質的語音合成結果。

系統最顯著的特點是其多語言和跨語言支援能力。使用者可以直接輸入多語言文字而無需考慮語言類型,目前支援英語、日語、韓語、中文、法語、德語、阿拉伯語和西班牙語等多種語言。與傳統 TTS 系統不同,Fish Speech 不依賴音素,具有強大的泛化能力,可以處理任何語言的文字。

Fish Speech - 支援語音克隆的文字轉語音工具

在效能方面,Fish Speech 在處理 5 分鐘英語文字時,字符錯誤率和詞錯誤率僅為 2% 左右。使用 fish-tech 加速技術,在 RTX 4060 筆記型電腦上可實現 1:5 的即時率,在 RTX 4090 上可達到 1:15 的即時率。

Fish Speech(支援語音克隆的文字轉語音工具)官網及開源位址

該專案提供了多種使用方式:基於 Gradio 的網頁介面支援主流瀏覽器;基於 PyQt6 的圖形介面支援 Linux、Windows 和 macOS 系統;同時還支援部署推理伺服器。最新版本還整合了 Fish Agent 功能,實現了端到端的語音互動,包含情感表達和音色控制功能。

正文完
 0
評論(尚無留言)
验证码