完全本地化的语音转文字神器,不联网,放U盘里一键打开就能用!

1. 简介

大家好,我是大风,今天给刮来一款本地语言转文字神器,免安装,一键打开,一个U盘就能带走,随插随用。

他的特点是:完全离线(不受网络限制)、响应极快高准确率 且 高度自定义

Pasted image 20260629144823

核心特性

  • 语音输入:按住 CapsLock键 或 鼠标侧键X2 说话,松开即输入,超低延迟,默认去除末尾逗句号。支持对讲机模式和单击录音模式。
  • 文件转录:音视频文件往客户端 exe 一丢,字幕 (.srt)、文本 (.txt)、时间戳 (.json) 统统都有。
  • 数字 ITN:自动将「十五六个」转为「15~16个」,支持各种复杂数字格式。
  • 热词替换:在 hot.txt 记下偏僻词,通过音素模糊匹配,相似度大于阈值则强制替换。
  • 正则替换:在 hot-rule.txt 用正则或简单等号规则,精准强制替换。
  • LLM 角色:预置了润色、小助理等角色,当识别结果的开头匹配任一角色名字时,将交由该角色处理。
  • 托盘菜单:右键托盘图标即可添加热词、复制结果、清除LLM记忆。
  • C/S 架构:服务端与客户端分离,虽然 Win7 老电脑跑不了服务端模型,但最少能用客户端输入。
  • 日记归档:按日期保存你的每一句语音及其识别结果。
  • 录音保存:所有语音均保存为本地音频文件,隐私安全,永不丢失。

下面介绍一下如何部署:

2. 准备环境


2.1 安装VC++库

下载地址官网下载

2.2 安装ffpmeg

下载地址官网下载 下载解压后将 ffmpeg/bin 文件夹路径添加到系统 PATH 环境变量中

3. 安装本体

3.1 解压安装包

下载地址: 官网下载备用下载

Pasted image 20260629110203

3.2 下载大语言模型

下载地址: 官网下载备用下载 以下为支持的模型:

引擎名 准确性 速度 格式 显卡加速
Paraformer ★★★☆☆ ★★★★★ ONNX
SenseVoice-Small ★★★☆☆ ★★★★★ ONNX
Fun-ASR-Nano ★★★★☆ ★★★★☆ ONNX + GGUF
Qwen3-ASR ★★★★★ ★★★☆☆ ONNX + GGUF

模型选择:

  • 独显电脑优先用 Qwen3-ASR-1.7B-q5_k,准确率夯爆
  • 集显电脑可尝试 Qwen3-ASR-1.7B-q4_k,如果延迟太高,可降至 Fun-ASR-Nano
  • 性能太差则建议 SenseVoice-Small
  • 性能参考(20s 音频转录延迟):

模型 CPU U9-285H GPU RTX5050
Paraformer 0.6s
SenseVoice-Small 0.6s 0.15s
Fun-ASR-Nano 2.0s 0.5s
Qwen3-ASR-1.7B 4.0s 1.0s

根据自己电脑的性能选择放到models的对应目录下

Pasted image 20260629111304
Pasted image 20260629110408


4. 使用

4.1 开启服务端

双击start_server.exe

Pasted image 20260629110441
确保服务端开启成功
Pasted image 20260629110529

4.2 开启客户端

双击start_client.exe

Pasted image 20260629110607
确保客户端开启成功
Pasted image 20260629110711

4.3 使用方法

1. 打开电脑的麦克风


2. 按住 CapsLock键 或 鼠标侧键X2 就可以说话了


3. 实时转录功能

语音转文字的结果会保存在对应日期的md文件里,录音会保持在assets中

Pasted image 20260629110903
Pasted image 20260629110856

4. 文件转录功能

将音频和视频拖动到start_client.exe,即可转录成文字

Pasted image 20260629112754

5. 下载地址

下载地址: 官网下载备用下载