今天上班摸鱼把昨晚跑团的录音转录成文字,分别尝试了三件事:
- zoom的转录功能
- 开源软件pytranscripter
- OpenAI的whisper(开源)
zoom的字幕
zoom recording好用在两点:
- 可以为每个参会者单独录制音频文件。这对之后做文字转录保存发言人信息有很大帮助,不然指望模型能自己分辨角色实在准确率感人。
- 可以自动转录甚至实时转录。虽然好像不对免费用户开放但学校账户是没问题的。
坏消息1:我忘了开单独录制和转录。所以还是得继续研究怎么转录。 坏消息2:zoom提供的转录只有英文。
pytranscripter
我之前就用过这个软件,让我很惊讶的地方是它支持粤语,而且效果还不错。我就是靠这个软件看完了一些工作上需要看的视频。
但这次让我大失所望,pytranscripter彻底搞砸了。看来pytranscripter对多人场合的汉语转录是完全无能的。
不过它给我留下了一些小彩蛋:一些在我看来有点诗意的文字。
whisper
终于到了我寄予厚望的whisper,结论:大失所望。
直接给两种size的结果:
base
这个真的让我毛骨悚然,因为《命运石之门》中我最喜欢的角色的原因,我看到这个画面的反应相当之……剧烈。
medium
这是我看到的比较差的部分,medium后面的表现其实稍好一些,但因为我在mac的cpu上跑,速度慢到不能接受,还是调API吧。
whisper API
结论:OpenAI你畜生啊!让我做了六个很麻烦的防机器人验证,然后才告诉我HK不能进OpenAI的后台(而不只是chatGPT不行)
直接调API是不需要翻墙的,但我被告知我的APIkey不能用,翻墙后打开后台确认,key被取消了,而且原本的200刀free trial也没了。
不过whisper是开源的。API的好处是速度非常快。
结论
从第一句来看whisper还是比pytranscripter强一点点,但后面的bug实在令人难以直视,AI真的很容易被古神污染。总的来说多人中文场景还是难的,不知道large-whisper-2会不会有惊艳的表现。我现在还是等一手zoom,目前比较理想的应该是zoom分人,large-whisper-2对每个单独的人做transcribe,从medium的表现看,我应该还是可以信赖large在单人中文上的表现的。