Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Feature] 可以增加whisper api的支持吗 #187

Open
meikenakinori opened this issue Mar 10, 2025 · 8 comments
Open

[Feature] 可以增加whisper api的支持吗 #187

meikenakinori opened this issue Mar 10, 2025 · 8 comments
Assignees

Comments

@meikenakinori
Copy link

Is your feature request related to a problem? Please describe.

(A clear and concise description of what the problem is.)
可以增加whisper api的支持吗 这样比较低配的vps也能使用
Groq现在有免费的api可以用
另外视频理解大模型是否能改用 字幕去让他切片 这样就能使用gpt 4o

Describe the solution you'd like

(A clear and concise description of what you want to happen.)

Describe alternatives you've considered

(A clear and concise description of any alternative solutions or features you've considered.)

Additional context

(Add any other context or screenshots about the feature request here.)

@timerring
Copy link
Owner

这个其实我调研过,主要更多的还是经济方面的考虑,whisper 的 api 太贵了,每分钟 $0.006,通常录播都是至少 1 小时起步,$0.006x60=$0.36≈¥2.592,这价格对于一个录播通常只有 ¥0.1 的账号来说 unaffordable 了

Image

至于其他替代解决方案我也寻找过,之前试的比较经济的就是 AIinfra 平台 SiliconFlow,之前有个 FunAudioLLM/SenseVoiceSmall 可以免费识别。

Image

但是估计根据 3 月初尤洋和袁进辉网络对线的情况来看,我估计他们平台可能 2 月亏不少,这个模型在 2 月末下线了

@timerring
Copy link
Owner

Groq现在有免费的api可以用

另外这个 Groq 我查了一下文档,不是免费使用

Image

每小时 $0.04 ≈ ¥0.3,价格倒是能接受,但是限制音频大小最多 25 MB,这个大小有损压缩差不多最多 10 分钟?好像不是很适合长时间的录播字幕识别。长时间录播的最佳实践目前看来可能本地部署更实际一点。

另外如果您找到了更好的 api,欢迎分享出来我们一起讨论。

@meikenakinori
Copy link
Author

meikenakinori commented Mar 10, 2025

Groq現在的api一天免費額度是一小時提供7200秒的免費額度
一天是8小時對只錄一個主播足夠了
https://console.groq.com/docs/rate-limits
是免費的 不用綁卡

@meikenakinori
Copy link
Author

但是限制音频大小最多 25 MB,这个大小有损压缩差不多最多 10 分钟?
這個我不確定 我自己日常使用yt-dlp下載後使用他來識別
大概10分鐘的片段7mb左右

@timerring
Copy link
Owner

行,我在明天 commit 新的 log 模块的 feature 以后,搞个 demo 看看效果。

@meikenakinori
Copy link
Author

感謝參考 這個自動切片真的很實用
因為我自己有在上傳影片
長的視頻看到人比短視頻少太多了

@timerring
Copy link
Owner

感谢,至于这个

另外视频理解大模型是否能改用 字幕去让他切片 这样就能使用gpt 4o

想法能进一步讲讲吗,因为我在 OpenAI developer platform 上没有找到能直接理解视频模态的模型。至于用字幕去切片,我确实已经在做了,因为这个项目的切片就是分析弹幕密度最多的一段,然后把这段切片的,然后切片的内容是已经带了弹幕和字幕渲染的视频让大模型理解。

@timerring timerring self-assigned this Mar 10, 2025
@meikenakinori
Copy link
Author

不好意思 我的github 沒有推送看到現在才回覆
字幕去切片目前我是使用gemini去讓他讀取
不論什麼大模型都是上傳srt重命名txt去給他讀取
其他的大模型都會出現只讀前面部分的問題
感覺這個就是純粹的prompt 打磨
我現在是讓他輸出每5-10分鐘的大略內容
然後人工選擇觀眾感興趣的內容
主要是我有嘗試過讓大模型自己選擇那些有趣的內容大概中標率只有6成
類似下面的prompt

请基于以下字幕内容,生成符合B站视频简介风格的文案:

  1. 用「当...竟然...」句式制造悬念(不超过15字)
  2. 列出三个最反差的瞬间(用「▸」符号引导)
  3. 标注两个最佳体验时间点(格式:→mm:ss)
  4. 添加三个智能匹配的话题标签(#开头)
  5. 结尾用开放式提问引导互动
  6. 在简介最后单独列出三个瞬间的时间戳,格式为:
    「时间戳检查:
    • 瞬间1 → mm:ss
    • 瞬间2 → mm:ss
    • 瞬间3 → mm:ss」

要求:

  • 禁用网络流行语和过度夸张词汇
  • 保留1处未解明悬念(例:"关于XX的秘密")
  • 口语化程度控制在学术论文与聊天记录之间
  • 时间戳优先标注「情感波动峰值」而非操作节点

另外我發現YouTube 的直播存檔會自動生成字幕 這樣更不用特別去自己生成 大概都是直播一天後
很多主播都沒人特別去切 如果能ai自動切片轉傳應該不錯 如果之後有空可以考慮

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants