AI不该被囚禁在键盘上
最近高强度和ai对话的时候,尤其是进入心流状态后,脑子里思如泉涌,AI那边生成的也老快。但是这两个超级大脑直接的交互真的太慢了,还在那一点点敲键盘,感觉带宽真得升升级。我看油管上开屏广告也有这种产品,大多都是英语的语音转文字,中文效果
后来我试了试Mac自带的语音转文字,说中文转出来之后我看的都不知所云,传给下游大模型直接语义坍缩。。。
各大llm厂商对此也有些优化,他们在网页端加了个语音输入 但是在中文场景下,除了chatgpt的那个语音转文字,其他厂商的对中文识别率都挺低的,即便大模型有兜底,能根据上下文猜测你说的是啥意思,但还是容易发生语义坍缩
而gpt的语音转文字也有局限,当你说话说过超过一分钟之后,就会因为说话的信息tokens过长或者网络波动,给你全部吞了,说了两分钟的话,还得重新说一遍,杏仁核小朋友就要闹了。
当时这真是个折磨我好久好久的痛点。 我就在想,gpt的转录引擎是什么呢,中文优化怎么这么好,要不抽出来本地跑,连上剪切板当个小工具不行么,后来也确实vibecoding了一下:
做了个基于OpenAI Whisper引擎的转录工具 做完后我试了试,Mac本地跑完一段语音转文字的时间,和去openai服务器走一圈再回来不相上下;而跑出来的文本准确率 甚至要比 chatgpt网页端的那个还要高 估计openai算力全堆给llm了,asr这种边缘业务算力分不到多少了哈哈哈 Whisper还提供了个CUDA加速,要是英伟达显卡,本地跑的速度还能在mac的速度之上快个四倍左右,还得是老黄 多亏现在llm兜底能力强,只要术语不错一半以上,都能根据上下文基本都能推断出来,语意不会崩。现在已经常驻后台当我小工具了哈哈哈哈。
#牛客AI配图神器#
后来我试了试Mac自带的语音转文字,说中文转出来之后我看的都不知所云,传给下游大模型直接语义坍缩。。。
各大llm厂商对此也有些优化,他们在网页端加了个语音输入 但是在中文场景下,除了chatgpt的那个语音转文字,其他厂商的对中文识别率都挺低的,即便大模型有兜底,能根据上下文猜测你说的是啥意思,但还是容易发生语义坍缩
而gpt的语音转文字也有局限,当你说话说过超过一分钟之后,就会因为说话的信息tokens过长或者网络波动,给你全部吞了,说了两分钟的话,还得重新说一遍,杏仁核小朋友就要闹了。
当时这真是个折磨我好久好久的痛点。 我就在想,gpt的转录引擎是什么呢,中文优化怎么这么好,要不抽出来本地跑,连上剪切板当个小工具不行么,后来也确实vibecoding了一下:
做了个基于OpenAI Whisper引擎的转录工具 做完后我试了试,Mac本地跑完一段语音转文字的时间,和去openai服务器走一圈再回来不相上下;而跑出来的文本准确率 甚至要比 chatgpt网页端的那个还要高 估计openai算力全堆给llm了,asr这种边缘业务算力分不到多少了哈哈哈 Whisper还提供了个CUDA加速,要是英伟达显卡,本地跑的速度还能在mac的速度之上快个四倍左右,还得是老黄 多亏现在llm兜底能力强,只要术语不错一半以上,都能根据上下文基本都能推断出来,语意不会崩。现在已经常驻后台当我小工具了哈哈哈哈。
全部评论
相关推荐
点赞 评论 收藏
分享