-
Notifications
You must be signed in to change notification settings - Fork 46
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Feature] 可以增加whisper api的支持吗 #187
Comments
这个其实我调研过,主要更多的还是经济方面的考虑,whisper 的 api 太贵了,每分钟 $0.006,通常录播都是至少 1 小时起步,$0.006x60=$0.36≈¥2.592,这价格对于一个录播通常只有 ¥0.1 的账号来说 unaffordable 了 至于其他替代解决方案我也寻找过,之前试的比较经济的就是 AIinfra 平台 SiliconFlow,之前有个 FunAudioLLM/SenseVoiceSmall 可以免费识别。 但是估计根据 3 月初尤洋和袁进辉网络对线的情况来看,我估计他们平台可能 2 月亏不少,这个模型在 2 月末下线了。 |
另外这个 Groq 我查了一下文档,不是免费使用。 每小时 $0.04 ≈ ¥0.3,价格倒是能接受,但是限制音频大小最多 25 MB,这个大小有损压缩差不多最多 10 分钟?好像不是很适合长时间的录播字幕识别。长时间录播的最佳实践目前看来可能本地部署更实际一点。 另外如果您找到了更好的 api,欢迎分享出来我们一起讨论。 |
Groq現在的api一天免費額度是一小時提供7200秒的免費額度 |
但是限制音频大小最多 25 MB,这个大小有损压缩差不多最多 10 分钟? |
行,我在明天 commit 新的 log 模块的 feature 以后,搞个 demo 看看效果。 |
感謝參考 這個自動切片真的很實用 |
感谢,至于这个
想法能进一步讲讲吗,因为我在 OpenAI developer platform 上没有找到能直接理解视频模态的模型。至于用字幕去切片,我确实已经在做了,因为这个项目的切片就是分析弹幕密度最多的一段,然后把这段切片的,然后切片的内容是已经带了弹幕和字幕渲染的视频让大模型理解。 |
不好意思 我的github 沒有推送看到現在才回覆
另外我發現YouTube 的直播存檔會自動生成字幕 這樣更不用特別去自己生成 大概都是直播一天後 |
Is your feature request related to a problem? Please describe.
(A clear and concise description of what the problem is.)
可以增加whisper api的支持吗 这样比较低配的vps也能使用
Groq现在有免费的api可以用
另外视频理解大模型是否能改用 字幕去让他切片 这样就能使用gpt 4o
Describe the solution you'd like
(A clear and concise description of what you want to happen.)
Describe alternatives you've considered
(A clear and concise description of any alternative solutions or features you've considered.)
Additional context
(Add any other context or screenshots about the feature request here.)
The text was updated successfully, but these errors were encountered: