Stage1st

标题: 视频自动生成字幕现在什么软件效果最好? [打印本页]

作者: ArtemisI    时间: 2024-2-23 19:43
标题: 视频自动生成字幕现在什么软件效果最好?
之前一直用的是剪映,已经基本上够用了,但是有时候还是不太准,而且就为了生成字幕开个剪映有点浪费,有没有识别效果更好的?


作者: hein    时间: 2024-2-23 19:49
人脑+记事本
核对一遍
作者: noahhhh    时间: 2024-2-23 19:49
本帖最后由 noahhhh 于 2024-2-23 19:50 编辑

只有 whisper 了,不过我没折腾过不知道哪个壳好用,macOS 上看着挺多的(付费)
作者: JetBrains    时间: 2024-2-23 20:06
whisper,直接用 openai 的 api,现在网上两块钱三块钱的官方 api key 够转换好几小时,自动生成 srt

显卡好的就上大号模型本地跑,否则还是建议在线
作者: ArtemisI    时间: 2024-2-24 13:17
JetBrains 发表于 2024-2-23 20:06
whisper,直接用 openai 的 api,现在网上两块钱三块钱的官方 api key 够转换好几小时,自动生成 srt

显卡 ...

本地试了下whisper medium,感觉准确度还不如剪映
作者: 普通论坛用户    时间: 2024-2-24 16:50
上传到YouTube,搭配油猴脚本,它会给你配简中字幕
作者: 树洞专用    时间: 2024-2-24 20:26
现在就是剪映识别最好用,特别是时间轴
作者: win8    时间: 2024-2-25 03:05
出字幕剪映已经最优选择了。whisper开销大暂且不说,最佳效果也就和剪映半斤八两,甚至还会蹦繁体字出来
作者: ArtemisI    时间: 2024-2-26 01:17
win8 发表于 2024-2-25 03:05
出字幕剪映已经最优选择了。whisper开销大暂且不说,最佳效果也就和剪映半斤八两,甚至还会蹦繁体字出来 ...

剪映这么强的吗,之前还以为会有专门的识别软件能效果好一些
作者: 人畜无害沃特碧    时间: 2024-2-26 09:11
剪映跑一遍,自己简单校对一遍,也没什么麻烦的吧,你去折腾其他的不也是还要自己校对吗
作者: 酷乐    时间: 2024-2-26 09:58
人畜无害沃特碧 发表于 2024-2-26 09:11
剪映跑一遍,自己简单校对一遍,也没什么麻烦的吧,你去折腾其他的不也是还要自己校对吗 ...

日语怎么办
作者: SinoWarrior    时间: 2024-2-26 10:19
酷乐 发表于 2024-2-26 09:58
日语怎么办

剪映海外版
作者: vava    时间: 2024-2-26 10:41
提示: 作者被禁止或删除 内容自动屏蔽
作者: 酷乐    时间: 2024-2-26 10:44
SinoWarrior 发表于 2024-2-26 10:19
剪映海外版

网络异常,这玩意是要**全局才能用?
作者: SinoWarrior    时间: 2024-2-26 10:46
酷乐 发表于 2024-2-26 10:44
网络异常,这玩意是要**全局才能用?

是,很神奇吧
作者: password    时间: 2024-2-26 10:50
酷乐 发表于 2024-2-26 09:58
日语怎么办

外语直接上whisper呗,whisper可以识别的语言比剪映更多,而且whisper是纯本地的
作者: 酷乐    时间: 2024-2-26 11:38
本帖最后由 酷乐 于 2024-2-26 11:42 编辑
password 发表于 2024-2-26 10:50
外语直接上whisper呗,whisper可以识别的语言比剪映更多,而且whisper是纯本地的 ...

试了一下,medium识别效果真的不如capcut啊,large又太花时间了……

不过有个怪事是,选英语不勾翻译,输入日语源,出来的居然是还不错的翻译和断句?

作者: password    时间: 2024-2-26 11:45
酷乐 发表于 2024-2-26 11:38
试了一下,medium识别效果真的不如capcut啊,large又太花时间了……

不过有个怪事是,选英语不勾翻译,输 ...

不用官方,可以用whisper.cpp上GPU加速
https://github.com/ggerganov/whisper.cpp

Windows上还有个whisper.cpp的GUI
https://github.com/Const-me/Whisper
作者: echoIII    时间: 2024-2-26 13:32
whisper要试怎么也得用large吧,medium也就英语还行,汉语、日语large和medium差距很大。
至于速度,有whisper faster项目,直接快了好几倍,内存也减少到6G左右。
作者: ArtemisI    时间: 2024-2-26 23:22
echoIII 发表于 2024-2-26 13:32
whisper要试怎么也得用large吧,medium也就英语还行,汉语、日语large和medium差距很大。
至于速度,有whis ...

faster是会降低精度吗,感觉faster的large v3还不如普通的medium
作者: echoIII    时间: 2024-2-27 10:11
本帖最后由 echoIII 于 2024-2-27 10:12 编辑
ArtemisI 发表于 2024-2-26 23:22
faster是会降低精度吗,感觉faster的large v3还不如普通的medium

不会降精度,不过有反映说v3相比v2会增大hallucination。
另外我没怎么处理过汉语,不知道与剪映相比如何。英语的话,目前没有比Whisper更好的。汉语语音比较简单,准确识别出音来各个软件应该都能做到,主要差距在于多音字识别上,可能Whisper不具备优势。
作者: ArtemisI    时间: 2024-3-3 02:24
发现whisper有个问题是他句子之间的空白如果不是特别长的话两句话就会直接连在一起,导致字幕会提前出现或者延后消失




欢迎光临 Stage1st (https://www.saraba1st.com/2b/) Powered by Discuz! X3.4