Fish Speech – 支援語音克隆的文字轉語音工具

533次閱讀

Fish Speech（支援語音克隆的文字轉語音工具）簡介

Fish Speech 是一個開源的支援語音克隆的文字轉語音工具，號稱是最先進文字轉語音（TTS）系統，具有零樣本和少樣本語音克隆能力。只需提供 10-30 秒的語音樣本，就能生成高品質的語音合成結果。

系統最顯著的特點是其多語言和跨語言支援能力。使用者可以直接輸入多語言文字而無需考慮語言類型，目前支援英語、日語、韓語、中文、法語、德語、阿拉伯語和西班牙語等多種語言。與傳統 TTS 系統不同，Fish Speech 不依賴音素，具有強大的泛化能力，可以處理任何語言的文字。

在效能方面，Fish Speech 在處理 5 分鐘英語文字時，字符錯誤率和詞錯誤率僅為 2% 左右。使用 fish-tech 加速技術，在 RTX 4060 筆記型電腦上可實現 1:5 的即時率，在 RTX 4090 上可達到 1:15 的即時率。

該專案提供了多種使用方式：基於 Gradio 的網頁介面支援主流瀏覽器；基於 PyQt6 的圖形介面支援 Linux、Windows 和 macOS 系統；同時還支援部署推理伺服器。最新版本還整合了 Fish Agent 功能，實現了端到端的語音互動，包含情感表達和音色控制功能。

正文完

发表至：電腦教程

2024-12-20

0

迅排設計 – 開源線上海報設計器和圖片編輯器