[Feature] 可以增加whisper　api的支持吗 #187

meikenakinori · 2025-03-10T14:36:36Z

Is your feature request related to a problem? Please describe.

(A clear and concise description of what the problem is.)
可以增加whisper api的支持吗这样比较低配的vps也能使用
Groq现在有免费的api可以用
另外视频理解大模型是否能改用字幕去让他切片这样就能使用gpt 4o

Describe the solution you'd like

(A clear and concise description of what you want to happen.)

Describe alternatives you've considered

(A clear and concise description of any alternative solutions or features you've considered.)

Additional context

(Add any other context or screenshots about the feature request here.)

timerring · 2025-03-10T15:54:07Z

这个其实我调研过，主要更多的还是经济方面的考虑，whisper 的 api 太贵了，每分钟 $0.006，通常录播都是至少 1 小时起步，$0.006x60=$0.36≈¥2.592，这价格对于一个录播通常只有 ¥0.1 的账号来说 unaffordable 了

至于其他替代解决方案我也寻找过，之前试的比较经济的就是 AIinfra 平台 SiliconFlow，之前有个 FunAudioLLM/SenseVoiceSmall 可以免费识别。

但是估计根据 3 月初尤洋和袁进辉网络对线的情况来看，我估计他们平台可能 2 月亏不少，这个模型在 2 月末下线了。

timerring · 2025-03-10T16:03:04Z

Groq现在有免费的api可以用

另外这个 Groq 我查了一下文档，不是免费使用。

每小时 $0.04 ≈ ¥0.3，价格倒是能接受，但是限制音频大小最多 25 MB，这个大小有损压缩差不多最多 10 分钟？好像不是很适合长时间的录播字幕识别。长时间录播的最佳实践目前看来可能本地部署更实际一点。

另外如果您找到了更好的 api，欢迎分享出来我们一起讨论。

meikenakinori · 2025-03-10T16:04:47Z

Groq現在的api一天免費額度是一小時提供7200秒的免費額度
一天是8小時對只錄一個主播足夠了
https://console.groq.com/docs/rate-limits
是免費的不用綁卡

meikenakinori · 2025-03-10T16:08:10Z

但是限制音频大小最多 25 MB，这个大小有损压缩差不多最多 10 分钟？
這個我不確定我自己日常使用yt-dlp下載後使用他來識別
大概10分鐘的片段7mb左右

timerring · 2025-03-10T16:13:34Z

行，我在明天 commit 新的 log 模块的 feature 以后，搞个 demo 看看效果。

meikenakinori · 2025-03-10T16:16:14Z

感謝參考這個自動切片真的很實用
因為我自己有在上傳影片
長的視頻看到人比短視頻少太多了

timerring · 2025-03-10T16:24:55Z

感谢，至于这个

另外视频理解大模型是否能改用字幕去让他切片这样就能使用gpt 4o

想法能进一步讲讲吗，因为我在 OpenAI developer platform 上没有找到能直接理解视频模态的模型。至于用字幕去切片，我确实已经在做了，因为这个项目的切片就是分析弹幕密度最多的一段，然后把这段切片的，然后切片的内容是已经带了弹幕和字幕渲染的视频让大模型理解。

meikenakinori · 2025-03-13T01:37:29Z

不好意思我的github 沒有推送看到現在才回覆
字幕去切片目前我是使用gemini去讓他讀取
不論什麼大模型都是上傳srt重命名txt去給他讀取
其他的大模型都會出現只讀前面部分的問題
感覺這個就是純粹的prompt 打磨
我現在是讓他輸出每5-10分鐘的大略內容
然後人工選擇觀眾感興趣的內容
主要是我有嘗試過讓大模型自己選擇那些有趣的內容大概中標率只有6成
類似下面的prompt

请基于以下字幕内容，生成符合B站视频简介风格的文案：

用「当...竟然...」句式制造悬念（不超过15字）

列出三个最反差的瞬间（用「▸」符号引导）

标注两个最佳体验时间点（格式：→mm:ss）

添加三个智能匹配的话题标签（#开头）

结尾用开放式提问引导互动

在简介最后单独列出三个瞬间的时间戳，格式为：
「时间戳检查：

瞬间1 → mm:ss

瞬间2 → mm:ss

瞬间3 → mm:ss」

要求：

禁用网络流行语和过度夸张词汇

保留1处未解明悬念（例："关于XX的秘密"）

口语化程度控制在学术论文与聊天记录之间

时间戳优先标注「情感波动峰值」而非操作节点

另外我發現YouTube 的直播存檔會自動生成字幕這樣更不用特別去自己生成大概都是直播一天後
很多主播都沒人特別去切如果能ai自動切片轉傳應該不錯如果之後有空可以考慮

timerring self-assigned this Mar 10, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature] 可以增加whisper　api的支持吗 #187

[Feature] 可以增加whisper　api的支持吗 #187

meikenakinori commented Mar 10, 2025

timerring commented Mar 10, 2025

timerring commented Mar 10, 2025

meikenakinori commented Mar 10, 2025 •

edited

Loading

meikenakinori commented Mar 10, 2025

timerring commented Mar 10, 2025

meikenakinori commented Mar 10, 2025

timerring commented Mar 10, 2025

meikenakinori commented Mar 13, 2025

[Feature] 可以增加whisper api的支持吗 #187

[Feature] 可以增加whisper api的支持吗 #187

Comments

meikenakinori commented Mar 10, 2025

Is your feature request related to a problem? Please describe.

Describe the solution you'd like

Describe alternatives you've considered

Additional context

timerring commented Mar 10, 2025

timerring commented Mar 10, 2025

meikenakinori commented Mar 10, 2025 • edited Loading

meikenakinori commented Mar 10, 2025

timerring commented Mar 10, 2025

meikenakinori commented Mar 10, 2025

timerring commented Mar 10, 2025

meikenakinori commented Mar 13, 2025

[Feature] 可以增加whisper　api的支持吗 #187

[Feature] 可以增加whisper　api的支持吗 #187

meikenakinori commented Mar 10, 2025 •

edited

Loading