1. 简介
大家好,我是大风,今天给刮来一款本地语言转文字神器,免安装,一键打开,一个U盘就能带走,随插随用。
他的特点是:完全离线(不受网络限制)、响应极快、高准确率 且 高度自定义。

核心特性
- 语音输入:按住
CapsLock键或鼠标侧键X2说话,松开即输入,超低延迟,默认去除末尾逗句号。支持对讲机模式和单击录音模式。 - 文件转录:音视频文件往客户端 exe 一丢,字幕 (
.srt)、文本 (.txt)、时间戳 (.json) 统统都有。 - 数字 ITN:自动将「十五六个」转为「15~16个」,支持各种复杂数字格式。
- 热词替换:在
hot.txt记下偏僻词,通过音素模糊匹配,相似度大于阈值则强制替换。 - 正则替换:在
hot-rule.txt用正则或简单等号规则,精准强制替换。 - LLM 角色:预置了润色、小助理等角色,当识别结果的开头匹配任一角色名字时,将交由该角色处理。
- 托盘菜单:右键托盘图标即可添加热词、复制结果、清除LLM记忆。
- C/S 架构:服务端与客户端分离,虽然 Win7 老电脑跑不了服务端模型,但最少能用客户端输入。
- 日记归档:按日期保存你的每一句语音及其识别结果。
- 录音保存:所有语音均保存为本地音频文件,隐私安全,永不丢失。
下面介绍一下如何部署:
2. 准备环境
2.1 安装VC++库
下载地址:官网下载
2.2 安装ffpmeg
下载地址:官网下载
下载解压后将 ffmpeg/bin 文件夹路径添加到系统 PATH 环境变量中
3. 安装本体
3.1 解压安装包
3.2 下载大语言模型
| 引擎名 | 准确性 | 速度 | 格式 | 显卡加速 |
|---|---|---|---|---|
| Paraformer | ★★★☆☆ | ★★★★★ | ONNX | ❌ |
| SenseVoice-Small | ★★★☆☆ | ★★★★★ | ONNX | ✅ |
| Fun-ASR-Nano | ★★★★☆ | ★★★★☆ | ONNX + GGUF | ✅ |
| Qwen3-ASR | ★★★★★ | ★★★☆☆ | ONNX + GGUF | ✅ |
模型选择:
- 独显电脑优先用 Qwen3-ASR-1.7B-q5_k,准确率夯爆
- 集显电脑可尝试 Qwen3-ASR-1.7B-q4_k,如果延迟太高,可降至 Fun-ASR-Nano
- 性能太差则建议 SenseVoice-Small
-
性能参考(20s 音频转录延迟):
| 模型 | CPU U9-285H | GPU RTX5050 |
|---|---|---|
| Paraformer | 0.6s | – |
| SenseVoice-Small | 0.6s | 0.15s |
| Fun-ASR-Nano | 2.0s | 0.5s |
| Qwen3-ASR-1.7B | 4.0s | 1.0s |
根据自己电脑的性能选择放到models的对应目录下


4. 使用
4.1 开启服务端
双击start_server.exe


4.2 开启客户端
双击start_client.exe


4.3 使用方法
1. 打开电脑的麦克风
2. 按住 CapsLock键 或 鼠标侧键X2 就可以说话了
3. 实时转录功能
语音转文字的结果会保存在对应日期的md文件里,录音会保持在assets中


4. 文件转录功能
将音频和视频拖动到start_client.exe,即可转录成文字




