西瓜说：不仅仅是语音转文字，更是你的私人灵感润色师

129次阅读

共计 1582 个字符，预计需要花费 4 分钟才能阅读完成。

前几天和大家聊了 VocoType 这种追求极致速度的本地语音输入方案。在评论区和私信里，我发现大家对语音输入的需求其实分化成了两个流派：一派追求「我口写我心」，要的就是快和准，原封不动地记录；而另一派则更希望能「我口写我意」，因为我们说话时难免磕磕绊绊、词不达意，如果能有个助手把这些碎片化的口语直接整理成通顺的文章，那该多好。

如果你属于后一派，那么今天我要介绍的这款「西瓜说」，可能会让你眼前一亮。

从「听写」到「听懂」

传统的语音输入法，本质上是一个「传声筒」。你说了什么，它就打出什么。这在即时聊天时没问题，但如果你想用它来写周报、回正式邮件，或者写代码注释，往往会发现转出来的文字充满了「那个、然后、就是」之类的废话，标点符号也乱七八糟，后期修改的时间比打字还长。

「西瓜说」试图解决的就是这个问题。它不仅仅是一个语音识别工具，更像是在识别引擎后面接了一个大语言模型（LLM）。

简单来说，当你通过快捷键（默认是 Fn）唤起它说话时，它先在本地把声音转成文字，然后迅速丢给背后的 AI 进行二次加工。这个加工的过程，就是它的核心魔法所在。

定义你的「嘴替」

在深入体验了一周后，我觉得「西瓜说」最吸引人的特性就是它的人设（Persona）功能。

你可以把它理解为给语音输入法装上了不同的「滤镜」。在软件的设置里，你可以预设各种 Prompt。比如：

邮件模式：把我不耐烦的口语「这事儿不行，得重做」，转化为「目前的方案在可行性上还有待商榷，建议重新评估」。
润色模式：自动修复语病，去除口头禅，让文字读起来像经过精修的散文。
翻译模式：我说中文，它直接在屏幕上敲出地道的英文。
代码模式：我说一段逻辑，它直接生成 Python 函数或者对应的注释。

这种「输入即成品」的体验，完全改变了我的工作流。以前我需要在语音输入后，再打开 ChatGPT 润色，现在这两步合并成了一步，行云流水。

本地与云端的混合双打

技术实现上，「西瓜说」采用了一个很聪明的混合架构。

语音识别部分使用的是本地模型（大概占用几百兆空间），这保证了识别速度快且语音数据不出本地，兼顾了隐私。而文本处理部分，它支持配置标准的 OpenAI 接口。

这就给了我们极大的自由度。你可以填入官方的 OpenAI Key，也可以用 DeepSeek、Moonshot 等国内大模型的 API，甚至如果你有能力，指向本地部署的 Ollama 也是完全可行的。这意味着，你的「润色师」到底有多聪明，完全取决于你给它接了什么大脑。

实际使用中的几个小技巧

在实际使用中，我有几个心得想分享给大家：

善用「二次确认」：虽然它能直接输出润色后的文本，但我建议开启「预览」或「二次确认」的功能。有时候 AI 会过度发挥，把你的原意改得面目全非。看一眼再上屏，心里更踏实。
定制专属 Prompt：不要只用官方自带的人设。我给自己设置了一个「卡片笔记」人设，专门用来把零碎的想法整理成这种结构：「# 核心观点