Whisper AI 影片轉文字語音轉文字

Whisper

在C底下建一個資料夾後將Version 1.12安裝程式與 *.bin 全放進去

只有模型 ggml-medium.bin（1.4GB）。
可以正常使用2026.04.01

ggml-large-v3.bin 太大跑的很慢
上面的medium最剛好
有少數文字錯誤可用豆包修補

底下會出現「参数错误 / Unable to load the model」报错，
無法使用
核心是模型与软件版本不兼容、文件损坏或 CUDA 环境异常，

绝大多数用户首选：ggml-large-v3-turbo-q8_0.bin
理由：
Turbo 版本速度极快，转录 1 小时音频仅需几分钟，体验拉满
q8_0 量化精度损失极小，中文 / 日常场景几乎和原版无差异
体积仅 874MB，下载快、占用内存少，笔记本也能流畅跑
完美适配你之前的 WhisperDesktop 工具，直接加载即用

✅ 追求极致精度（专业场景）：ggml-large-v3.bin / ggml-large-v2.bin
理由：
无量化，100% 还原模型精度，适合对准确率要求极高的场景（如字幕制作、学术转录）
v3 比 v2 更推荐，速度更快、多语言优化更好
缺点：体积大（~3GB）、速度慢，需要较好的 CPU/GPU

✅ 低配置电脑 / 快速批量处理：ggml-large-v3-turbo-q5_0.bin
理由：
体积仅 574MB，老旧电脑、低内存设备也能流畅运行
速度最快，适合批量处理大量音频 / 视频
精度损失轻微，日常会议、视频字幕完全够用

不要盲目选最大的模型：
原版 large-v3 体积 3.1GB，对普通用户来说精度提升感知不强，但速度慢很多，性价比极低

Turbo 版本的局限性：部分小语种（如泰语、粤语）精度略低于 v3，纯中文 / 英文场景无影响
量化版本选择：q8_0 是通用黄金平衡点，q5_0 仅在硬件不足时使用，不推荐 q4 及以下版本（精度损失明显）

GPU 加速适配：所有 GGML 模型都支持 GPU 加速，选 Turbo+q8_0 在 GPU 上速度会进一步提升

原版无量化模型（ggml-large-v3.bin/ggml-large-v2.bin）
体积 3GB+，FP16 推理显存需求约 8-10GB

非 Turbo 的 large-v3 量化模型（如ggml-large-v3-q5_0.bin）
显存占用仍需 5-6GB，且速度远慢于 Turbo 版本

Version 1.12

從該儲存庫的「Releases」部分下載 WhisperDesktop.zip，解壓縮 ZIP，然後執行WhisperDesktop.exe。

https://github.com/Const-me/Whisper

在第一個畫面上，它會要求您下載模型。推薦 ggml-medium.bin（1.4GB）。
放在同一個資料夾中
都放在C底下也可

https://huggingface.co/ggerganov/whisper.cpp/blob/main/ggml-medium.bin

所有模型在這頁

https://huggingface.co/ggerganov/whisper.cpp/tree/main

有一個 ggml-large-v3.bin (2.88GB)

直接下載不行後來先下 Git LFS但也無法順利安裝
去另外一台電腦解決ESET關掉windows內建防毒後可下上面URL

Git LFS Details

SHA256: 64d182b440b98d5203c4f9bd541544d84c605196c4f7b845dfa11fb23594d1e2
Pointer size: 135 Bytes
Size of remote file: 3.1 GB
Xet backed hash: 766d11cebbdf5a67c179c5774e2642b609e35e1a30240e7b559d5647c655b0a4

Windows 7 X64 不行

Windows 10 X64

HP 主機 Nvidia GeForce GT710 跑一半中途會沒有反應當掉

ACER 主機 Nvidia GeForce GT730 剛執行時會跑出一個畫面
說要麻離開要嘛繼續 (忘抓圖)
選擇繼續後看似沒問題但在運作程式中跑很久沒有進度條
看起來可能不支援使用

這張買全新可以用:
【Inno3D 映眾】GT 1030 2GB GDDR5 顯示卡靜音版

DELL 主機 Nvidia GeForce GT1030 (2G 記憶體) .可轉出.
影片VS 轉出時間感覺差不多

AMD Radeon R7 200系列. 1GB記憶體
發布日期, 2013年10月. 代號, Volcanic Islands. 顯示卡. 可轉.
中文影片5分鐘
轉出時間14分鐘
relative processing speed: 0.35

使用 Nvidia GeForce GTX 730。有 2GB 显存。
运行“基础”模型时没有问题，但“小型”模型启动时却出现了错误信息：

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 2.00 GiB total capacity; 1.32 GiB already allocated; 0 bytes free; 1.40 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

小模型比基础模型更大，因此需要更多显存。2GB 根本不够处理更大的模型。
可以在 CPU 上运行它，使用 CPU 是个选择，但耗时太长。

可能可以在 Colab 中运行。

transcribed the audio 轉錄音訊 : 可用MP4直接轉出
media duration 媒體時長 : 整個檔案原有長度
processing time 處理時間 : 轉出耗費時程
relative processing speed 相對處理速度 : 不同GPU影響

wave 音波
reshape 重塑
shaders 著色器
matrix multiply 矩陣乘法
reshape some tensors 重塑一些張量

Whisper AI 影片轉文字語音轉文字

Whisper

评论

发表回复取消回复

Whisper AI 影片轉文字 語音轉文字

Whisper

评论

发表回复 取消回复

Whisper AI 影片轉文字語音轉文字

发表回复取消回复