文字转录两三事

今天上班摸鱼把昨晚跑团的录音转录成文字,分别尝试了三件事:

  1. zoom的转录功能
  2. 开源软件pytranscripter
  3. OpenAI的whisper(开源)

zoom的字幕

zoom recording好用在两点:

  1. 可以为每个参会者单独录制音频文件。这对之后做文字转录保存发言人信息有很大帮助,不然指望模型能自己分辨角色实在准确率感人。
  2. 可以自动转录甚至实时转录。虽然好像不对免费用户开放但学校账户是没问题的。

坏消息1:我忘了开单独录制和转录。所以还是得继续研究怎么转录。 坏消息2:zoom提供的转录只有英文。

pytranscripter

我之前就用过这个软件,让我很惊讶的地方是它支持粤语,而且效果还不错。我就是靠这个软件看完了一些工作上需要看的视频。

但这次让我大失所望,pytranscripter彻底搞砸了。看来pytranscripter对多人场合的汉语转录是完全无能的。

不过它给我留下了一些小彩蛋:一些在我看来有点诗意的文字。

whisper

终于到了我寄予厚望的whisper,结论:大失所望。

直接给两种size的结果:

base

这个真的让我毛骨悚然,因为《命运石之门》中我最喜欢的角色的原因,我看到这个画面的反应相当之……剧烈。

medium

这是我看到的比较差的部分,medium后面的表现其实稍好一些,但因为我在mac的cpu上跑,速度慢到不能接受,还是调API吧。

whisper API

结论:OpenAI你畜生啊!让我做了六个很麻烦的防机器人验证,然后才告诉我HK不能进OpenAI的后台(而不只是chatGPT不行)

直接调API是不需要翻墙的,但我被告知我的APIkey不能用,翻墙后打开后台确认,key被取消了,而且原本的200刀free trial也没了。

不过whisper是开源的。API的好处是速度非常快。

结论

从第一句来看whisper还是比pytranscripter强一点点,但后面的bug实在令人难以直视,AI真的很容易被古神污染。总的来说多人中文场景还是难的,不知道large-whisper-2会不会有惊艳的表现。我现在还是等一手zoom,目前比较理想的应该是zoom分人,large-whisper-2对每个单独的人做transcribe,从medium的表现看,我应该还是可以信赖large在单人中文上的表现的。

updatedupdated2023-06-082023-06-08