非常好的WisprFlow平替,目前试下来甚至就是在中文这一块的语音的识别的准确性比WisprFlow还更高一些,然后再加上就是本地运行,而且基本上没有太多需要付费的这个功能吧,所以还是非常不错的。--本条来自语音输入
AI 语音输入法,比打字快 4 倍。...
闪电说(前身为代体)是端侧优先的 AI 语音输入法,本地语音模型带来毫秒级响应,是追求极致速度的最佳选择。
【产品特点】
1. 毫秒级响应,快如闪电
本地 AI 引擎,无需等待云端响应。
即说即显,打字速度提升 4 倍。
告别等待,让思维和输入同步,创作效率飞速提升。
2. AI 智能纠错,理解语义
强大的 AI 引擎自动理解语义,智能过滤口语化表达,优化句子结构。
支持本地和云端 AI 模型,让你的文字更专业、更准确。
3. 绝对隐私,数据不离设备
我们只是软件方,你的语音数据完全在本地处理或直达第三方 AI 服务商,不经过我们的服务器。
你的隐私,完全由你掌控。
【代体数据迁移到闪电说简单教程】
https://shandianshuo.featurebase.app/help/articles/0251518-dai-ti-qian-yi-shu-ju-zhi-shan-dian-shuo
真的很好用,语音识别完全不用做任何修改!!!这点真的太值得表扬了!!!
我之前用的是wisprflow,已经达到上限了,但是!!!识别的准确度太差了(即使这样也已经用到上限了,可见我真的很喜欢语音输入;
无意间看到闪电说,听名字感觉有点犹豫哈哈哈哈哈哈(可能是莫名其妙的偏见。。。
下载下来我惊了,1G没了,心里在嘀咕这什么玩意要这么大。。。已经开始犹豫了;
但是抱着来都来了,下都下了的心态试用了一下,卧槽,相见恨晚!!!强烈推荐大家使用!!
说说缺点:
确实占用的内存太大了,寸土寸金的mac内存有点顶不住。。。
不知道是不是选择AI模型的问题,纠错好像不是特别准确,但是从识别率高这个方面可以弥补也还好。。。
噢,非常好。这是我在使用闪电说自己的文本转模型,给闪电说写评价。这是我第一次尝试使用语音来写评价,我这个人比较喜欢讲故事。
我之前是 Whisper Flow 的用户,当然现在也是。之前是因为在 lenny's newsletter 有会员,他们送了一个 Whisper Flow 的年费。我尝试过使用一段时间,或者说几次,它的效果并不好,或者说我不满意。不满意在什么地方呢?它对中文的兼容不太好。也可能是我的使用方式不对,但结果就是这样,它不够让我满意。
我没有什么要使用英文输入的需求。此外,假如让它作为一个系统级的自启动的助手驻留在后台可以录音,好像没有什么存在感,我会觉得有点奇怪。毕竟一个能录音的东西,它没有什么存在感,而你又用不到它。
但不得不说,这个 App 是比较优雅的。它没有什么时候会突然弹出一个窗口,或者右上角系统显示有 App 正在录音。我没有发现这种恶意的行为或者奇怪的行为。
但它是付费的,而且联网,而且我不太确定它是不是会把我的数据上传给云端的 API。那我就会觉得,不仅我用不到,而且我也不太想用,而且我也不太敢用。关于 Whisper Flow 大概就是这样。
这一次接触到闪电说,是因为观察 11 月的这个活动。我看到了闪电说这么一个 App,它让我有点好奇,因为它有 9.0 的评分。那我就想一下它是干什么用的,发现它是作为 Whisper Flow 的替代。我就试了一下,感觉还不错。
整个安装过程和使用的过程,包括它的官网描述,都有在强调为了隐私和安全。我很喜欢这一点。同时它使用的是本地语言模型,这也会是一个让我觉得比较好的点。
此外,它还能够调用自定义的 AI 来做优化。那我就可以发挥我自己的 Prompt Engineering 的特长,把我的语言直接转化成文本的结果,甚至是 Markdown 的结果,我觉得非常好。
这是以上的优点。
当然,不够好的地方还是有一些的。比如说第一个就是语音悬浮窗。我现在在录这段音频的时候,我没有看到那一个语音悬浮的小窗口,就是左边是叉号,右边是勾号,中间是音频波动的那么一个小小的悬浮窗。我没有看到它。我记得有的时候它是会出现的。如果我采用的是那一个按一下之后开始录音,最长录 5 分钟的那个功能的话,我现在能观察到的就是我的右上角显示麦克风正在录音。(因为没有这个显示窗口,录音到此结束了而我还没注意到,导致我后面的吐槽都没录下来,怀疑是监听到吐槽闪电说就紧急停止 bushi)
补充一下其他没录进来的内容:
1. 展示录音状态的语音悬浮窗,建议固定在页面的某个位置,这样会有一种“我知道是不是在录音”的安全感。见图一,我今天看B站视频的时候不知道为啥这个录音就开始了,直到看到自己的历史记录
2. 虽然配置自动保存,但是缺少了那个“save”的按钮,让我觉得总像是配置没保存一样
3. 虽然存档了日志和语音,但是如果我启用了AI优化的话,语音转文本对应的那个原始内容就丢掉了,如果AI的优化效果或者数据丢了,或者内容被截断,我是不会想说第二遍的
4. 按一下录音为什么只有5分钟?不能增加长度或者自由调节?
5. 其实我还是没看懂这个保留剪切板原内容的设置是什么意思
以上
我的天哪,这个竟然完全没有人发布评论,我竟然是第一个。
我现在这条评论就是用这个软件直接按住FN键,然后噼里啪啦讲一大堆东西,基本上在10s之内就可以完成所有的输入。
而且目前也是我看到的识别最快的。我试用过讯飞的mac版,还有豆包的mac版,虽然各有各的好处,但其实都没有这个快,这个真的是快到离谱了,而且好像识别错误、失败的概率非常非常低,简直就是彻底改变了我用电脑的体验。
对了,它有一个可以自动校准微调的功能,这个会需要用到联网的AI 去辅助,要自己去输豆包的 API,我试用完发现也就是差不多一秒多的延迟,完全可以接受,而且效果又会更好。这个真的让我感觉很惊艳了?
老规矩先说产品体验下来的总体感受:语音识别延迟低、模型数据全本地的隐私性强、产品设计体验待优化。
语音识别延迟低
和同类的笔记产品、线上会议产品的语音识别模块相比,延迟相对更低,但不算非常明显,可能我的核心使用场景是会议的记录,对延迟的要求不高,所以感受不明显。
模型数据全本地的隐私性强
本地化的模型隐私性确实得到了保证,这一点就可以让这个产品在我的日常应用里占据一席之地,支持自定义词典进行AI纠正的功能很有价值,但是对于本地化的应用来说,这个功能对我来说有点鸡肋,如果是联网的应用我会有更多的产品选择。
产品设计体验待优化
1、流式输出的问题,现在用户基本已经都习惯了在语音识别的过程中实时查看识别结果的模式,没有流式输出会让用户对产品充满不安全感,同时如果词典未配置或者环境声音比较嘈杂,用户最后直接看到一个磕磕绊绊很多错字和标点符号的识别内容,会立刻下头,很大程度上影响了用户的产品体验,尤其是初次使用产品的用户。
2、既然AI纠正的配置已经可以引入远程大模型,那么完全可以根据远程大模型对录音文本内做一些二次加工或者简单问答,不然文本识别的内容依然要导出粘贴,如果可以一站完成简单处理,可以很大提升用户体验。
总结一下,我的体验主要是从一个会议录音转写的需求出发,这个产品的亮点主要在本地部署的隐私性上,但是如果是单纯喜欢语音输入这个方式的用户,可能使用产品的体验会更好,产品的低延迟和本地化的优势会更明显,同时使用频率越高,本地部署的免费优势也越大,能节省很多成本。最后能看到产品的开发者在用心的收集和响应用户反馈,很多用户的提出的建议也在被采纳,期望这样的产品可以越来越好。