AudioNotes – 基於AI的音頻轉文字工具

127次閱讀
尚無留言

AudioNotes(基於 AI 的音頻轉文字工具)簡介

AudioNotes 是一個基於 AI 的音頻轉文字工具,基於 FunASR 和 Qwen2 構建,可以將音視頻轉換為 markdown 筆記。它能夠快速提取音視頻的內容,並呼叫大型模型進行整理,最終生成一份結構化的 markdown 筆記,方便快速閱讀和學習。

AudioNotes - 基於 AI 的音頻轉文字工具

主要特點包括:

1. 音視頻轉文字: 利用 FunASR 進行高精度的語音識別,將音視頻轉換為文字。FunASR 是一款由微軟亞洲研究院發佈的通用語音識別系統,支援多種語言和場景。

2. 內容整理: 利用 Qwen2 大型語言模型對提取的文字進行智能分析和結構化,生成帶有大綱的 markdown 筆記。Qwen2 是一款基於 GPT- 3 訓練的大規模對話語言模型,具有出色的文本理解和生成能力。

3. 對話交互: 用戶可以與系統對話,進一步查詢和學習筆記內容,系統會利用大型模型給出針對性解答。

4. 部署方便: 提供 Docker 一鍵部署和本地部署兩種方式,用戶可根據需求靈活選擇。Docker 部署更為簡單,本地部署則需要提前準備 PostgreSQL 數據庫環境。

5. Web 界面: 採用 Streamlit 框架構建直觀友好的 Web 應用程序界面,用戶可輕鬆上傳音視頻檔案、查看生成的筆記和與系統對話。

總的來說,AudioNotes 將最新的語音識別和大型模型技術相結合,為用戶提供了一種高效的音視頻學習方式。無需手動記錄筆記,系統可以自動生成結構化筆記並支援互動式學習,極大節省了筆記時間,提高了學習效率。

AudioNotes(基於 AI 的音頻轉文字工具)官網及教程

  • 官網 :https://github.com/harry0703/AudioNotes

1、安裝 Ollama,下載對應系統的 Ollama 安裝包進行安裝

https://ollama.com/download

2、拉取模型: 以阿里的千問 2 7b 為例 https://ollama.com/library/qwen2

ollama pull qwen2:7b

3、有兩種部署方式,一種是使用 Docker 部署,另一種是本地部署

Docker 部署 (推薦)

curl -fsSL https://github.com/harry0703/AudioNotes/raw/main/docker-compose.yml -o docker-compose.yml
docker-compose up

docker 啟動後,訪問 http://localhost:15433/

登錄帳號為 admin,密碼為 admin(可以在 docker-compose.yml 檔案裡面修改)

本地部署

需要有可訪問的 postgresql 數據庫

conda create -n AudioNotes python=3.10 -y
conda activate AudioNotes
git clone https://github.com/harry0703/AudioNotes.git
cd AudioNotes
pip install -r requirements.txt

將.env.example 重新命名為.env,修改相關配置資訊

chainlit run main.py

服務啟動後,訪問 http://localhost:8000/

登錄帳號為 admin,密碼為 admin(可以在.env 檔案裡面修改)

正文完
 0
評論(尚無留言)
验证码