AudioNotes(基於 AI 的音頻轉文字工具)簡介
AudioNotes 是一個基於 AI 的音頻轉文字工具,基於 FunASR 和 Qwen2 構建,可以將音視頻轉換為 markdown 筆記。它能夠快速提取音視頻的內容,並呼叫大型模型進行整理,最終生成一份結構化的 markdown 筆記,方便快速閱讀和學習。
主要特點包括:
1. 音視頻轉文字: 利用 FunASR 進行高精度的語音識別,將音視頻轉換為文字。FunASR 是一款由微軟亞洲研究院發佈的通用語音識別系統,支援多種語言和場景。
2. 內容整理: 利用 Qwen2 大型語言模型對提取的文字進行智能分析和結構化,生成帶有大綱的 markdown 筆記。Qwen2 是一款基於 GPT- 3 訓練的大規模對話語言模型,具有出色的文本理解和生成能力。
3. 對話交互: 用戶可以與系統對話,進一步查詢和學習筆記內容,系統會利用大型模型給出針對性解答。
4. 部署方便: 提供 Docker 一鍵部署和本地部署兩種方式,用戶可根據需求靈活選擇。Docker 部署更為簡單,本地部署則需要提前準備 PostgreSQL 數據庫環境。
5. Web 界面: 採用 Streamlit 框架構建直觀友好的 Web 應用程序界面,用戶可輕鬆上傳音視頻檔案、查看生成的筆記和與系統對話。
總的來說,AudioNotes 將最新的語音識別和大型模型技術相結合,為用戶提供了一種高效的音視頻學習方式。無需手動記錄筆記,系統可以自動生成結構化筆記並支援互動式學習,極大節省了筆記時間,提高了學習效率。
AudioNotes(基於 AI 的音頻轉文字工具)官網及教程
- 官網 :https://github.com/harry0703/AudioNotes
1、安裝 Ollama,下載對應系統的 Ollama 安裝包進行安裝
https://ollama.com/download
2、拉取模型: 以阿里的千問 2 7b 為例 https://ollama.com/library/qwen2
ollama pull qwen2:7b
3、有兩種部署方式,一種是使用 Docker 部署,另一種是本地部署
Docker 部署 (推薦)
curl -fsSL https://github.com/harry0703/AudioNotes/raw/main/docker-compose.yml -o docker-compose.yml
docker-compose up
docker 啟動後,訪問 http://localhost:15433/
登錄帳號為 admin,密碼為 admin(可以在 docker-compose.yml 檔案裡面修改)
本地部署
需要有可訪問的 postgresql 數據庫
conda create -n AudioNotes python=3.10 -y
conda activate AudioNotes
git clone https://github.com/harry0703/AudioNotes.git
cd AudioNotes
pip install -r requirements.txt
將.env.example 重新命名為.env,修改相關配置資訊
chainlit run main.py
服務啟動後,訪問 http://localhost:8000/
登錄帳號為 admin,密碼為 admin(可以在.env 檔案裡面修改)