We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
昨天半夜 OpenAI 开了一场发布会,时间不长,杀伤力却极大,大家一早都被刷屏了吧!相信很多小伙伴已经用上新模型了,也有不少同学遇到各种各样的问题。
魔法哥也在第一时间做了深入体验和测试,结合多个群里的常见问题,趁热跟大家分享。
发布新款旗舰模型 GPT-4o。这是一款原生多模态大模型,具备原生的文本、视觉、音频输入能力,以及文本、语音输出能力。ChatGPT 可以更直接更自然地睁眼看、开口说了。
ChatGPT 实时语音交互。依托 GPT-4o 的原生多模态能力,ChatGPT 不再需要像以往那样外挂语音识别和语音合成模块,语音对话更加生动自然。虽然语音交互早已不是什么新鲜事儿,但现场演示的 “实时语音交互” 还是令人大受震撼。
ChatGPT 桌面客户端。可以读取系统剪贴板和屏幕内容,更紧密地融入到用户的工作流中。本次发布的只有 macOS 版,Windows 将在今年晚些时候发布。
更多高级功能普及到免费用户。OpenAI 真的是在朝着他们的愿景往前走,让 AI 惠及更多的人。这一点我们留到文章末尾详细讲解。
现在就能用啦!
如果你是 ChatGPT 付费用户(Plus 会员、Team 套餐会员),GPT-4o 已经全量推送。打开 ChatGPT 网页版,你应该可以看到如下的升级通知:
ChatGPT 界面也改版得更加简洁了。我们在左上角可以切换模型,选择 GPT-4o:
在手机端,你需要把 App 升级到最新版,然后就可以在新对话中选择 “GPT-4o” 作为模型了。
只不过 GPT-4o 不是默认模型,每次都要手动切一下,稍显不便。
如果你是免费用户,就要看运气了,目前 GPT-4o 还在逐步灰度推送的过程中。如果你登录 ChatGPT 之后,看到升级通知,而且左上角的模型选择变成以下样子:
恭喜你,已经被灰度到了!虽然这里没有显示 GPT-4o,但不用担心,直接跟它聊就可以了,你可以在它的回复下面看到当前所用模型,默认就是 GPT-4o 了。
如果你没有看到升级通知,而且左上角的模型选择区域还是老样子:
说明还没灰度到,可以试试退出重进,说不定就有了。
(需要注意的是,虽然 ChatGPT 允许不登录使用,但目前 GPT-4o 还是需要登录之后才能使用哦。所以没有账号的同学先去注册吧!)
有两个变通方法:
使用第三方的大模型平台。比如 Poe 已经在第一时间接入 GPT-4o( poe.com/GPT-4o ),免费用户也可以聊几轮。
使用 API。由于 GPT-4o 的 API 已经同步上线了,接口定义也和以往的 GPT 模型完全一致,大家可以把 GPT-4o 集成到自己常用的聊天客户端中。比如魔法哥经常推荐的 NextChat( app.nextchat.dev ),可以完美兼容。
不过这两种方式和原装的 ChatGPT 相比,功能和体验还是有缺失的,只能算是临时尝个鲜吧。
GPT-4o 给人的第一感觉就是 “快”!回复速度秒杀 GPT-4,甚至不输 GPT-3.5!
此外,理论上 GPT-4o 在知识库新鲜度、模型推理能力、视觉识别等方面相比 GPT-4 也有提升,这些都有待我们在日常使用中慢慢体会了。
发布会上的实时语音对话 demo 确实炸裂,很多人惊呼电影《Her》中的场景已经成为现实。魔法哥实际体验如何?
很遗憾,魔法哥尝试了很多次,现有的安卓版 ChatGPT App 始终无法激活实时语音对话效果;群友也无人成功。
魔法哥尝试切换不同线路,用英语对话,甚至在 Google Play 商店参与了 OpenAI 的内测计划。即使安装了 Beta 版的 ChatGPT App,版本号比常规渠道更高,也依然没能试出实时语音对话功能。
如何判断当前语音对话仍然是传统的 “回合制交互”,而不是发布会上的 “实时交互”?魔法哥基于以下几点作出判断:
延时没有明显变短。OpenAI 官方表示,GPT-4o 对音频输入的响应时间可以做到几百毫秒级别。但现在仍然有 5 秒左右的延时。
无法感受语气。传统的回合制对话需要经历 语音识别 → 模型回复 → 语音合成 这三个环节,而用户的语气在第一个环节就会丢失。同理,发布会上演示的 “大口喘气” 也无法被模型感受到。
无法通过语音打断模型。语音界面的交互方式还是老样子,打断模型输出需要手动操作。而且返回对话界面可以发现,模型的回复其实已经全部生成好了,只是语音合成模块没有读完而已。
因此,魔法哥认为实时语音对话功能还没有正式上线;同样,发布会上演示的手机摄像头实时捕捉现实画面的功能也未开放,大家可以先期待一下。一旦有任何消息,魔法哥也会在群里第一时间通知。
上面提到,GPT-4o 的 API 已经上线了,开发者可以尝试在自己的项目中切换新到模型。
魔法哥也在第一时间做了初步测试,感受如下:
推理速度极快。和 GPT-3.5 Turbo 相当。
“Token 利用率” 明显提升。这一点也可以佐证 GPT-4o 是一个全新的模型,并不是简单地对 GPT-4 “打补丁”。
输出风格偏话痨。AI 应用开发者可能需要对提示词做更多的打磨和调试。
OpenAI 借着 GPT-4o 的发布,给 ChatGPT 免费用户带来了一波大福利。当免费用户切换到 GPT-4o 时,可以享受以下这些原本是付费用户才能使用的高级功能:
而且 OpenAI 承诺将来还会有更多高级功能向免费用户解锁,付费会员纷纷表示 “被背刺”……哈哈,其实付费用户还是有特权的,免费用户的 GPT-4o 使用频次限制很大,想敞开用还是免不了付费的。
OpenAI 的这次发布会依然没有让人失望,ChatGPT 的快速迭代仿佛让我们看到了未来的无限可能。让我们一起期待下一次的技术更新,也别忘了把这篇文章分享给身边的小伙伴哦!
魔法哥对 GPT-4o API 的测试还在持续进行中,稍后会为大家带来更加深入的观察和分享。各位新朋友请关注公众号,下次更新不迷路:
📣 AI 魔法群开放啦! 对 AI 感兴趣的同学不妨扫码加群,与数百名同好交流分享:
对 AI 感兴趣的同学不妨扫码加群,与数百名同好交流分享:
© Creative Commons BY-NC-ND 4.0 | 我要订阅 | 我要打赏
The text was updated successfully, but these errors were encountered:
No branches or pull requests
昨天半夜 OpenAI 开了一场发布会,时间不长,杀伤力却极大,大家一早都被刷屏了吧!相信很多小伙伴已经用上新模型了,也有不少同学遇到各种各样的问题。
魔法哥也在第一时间做了深入体验和测试,结合多个群里的常见问题,趁热跟大家分享。
这场发布会有哪些亮点?
发布新款旗舰模型 GPT-4o。这是一款原生多模态大模型,具备原生的文本、视觉、音频输入能力,以及文本、语音输出能力。ChatGPT 可以更直接更自然地睁眼看、开口说了。
ChatGPT 实时语音交互。依托 GPT-4o 的原生多模态能力,ChatGPT 不再需要像以往那样外挂语音识别和语音合成模块,语音对话更加生动自然。虽然语音交互早已不是什么新鲜事儿,但现场演示的 “实时语音交互” 还是令人大受震撼。
ChatGPT 桌面客户端。可以读取系统剪贴板和屏幕内容,更紧密地融入到用户的工作流中。本次发布的只有 macOS 版,Windows 将在今年晚些时候发布。
更多高级功能普及到免费用户。OpenAI 真的是在朝着他们的愿景往前走,让 AI 惠及更多的人。这一点我们留到文章末尾详细讲解。
我什么时候可以用上 GPT-4o?
现在就能用啦!
付费用户
如果你是 ChatGPT 付费用户(Plus 会员、Team 套餐会员),GPT-4o 已经全量推送。打开 ChatGPT 网页版,你应该可以看到如下的升级通知:
ChatGPT 界面也改版得更加简洁了。我们在左上角可以切换模型,选择 GPT-4o:
在手机端,你需要把 App 升级到最新版,然后就可以在新对话中选择 “GPT-4o” 作为模型了。
只不过 GPT-4o 不是默认模型,每次都要手动切一下,稍显不便。
免费用户
如果你是免费用户,就要看运气了,目前 GPT-4o 还在逐步灰度推送的过程中。如果你登录 ChatGPT 之后,看到升级通知,而且左上角的模型选择变成以下样子:
恭喜你,已经被灰度到了!虽然这里没有显示 GPT-4o,但不用担心,直接跟它聊就可以了,你可以在它的回复下面看到当前所用模型,默认就是 GPT-4o 了。
如果你没有看到升级通知,而且左上角的模型选择区域还是老样子:
说明还没灰度到,可以试试退出重进,说不定就有了。
(需要注意的是,虽然 ChatGPT 允许不登录使用,但目前 GPT-4o 还是需要登录之后才能使用哦。所以没有账号的同学先去注册吧!)
还没有灰度到,怎么体验 GPT-4o?
有两个变通方法:
使用第三方的大模型平台。比如 Poe 已经在第一时间接入 GPT-4o( poe.com/GPT-4o ),免费用户也可以聊几轮。
使用 API。由于 GPT-4o 的 API 已经同步上线了,接口定义也和以往的 GPT 模型完全一致,大家可以把 GPT-4o 集成到自己常用的聊天客户端中。比如魔法哥经常推荐的 NextChat( app.nextchat.dev ),可以完美兼容。
不过这两种方式和原装的 ChatGPT 相比,功能和体验还是有缺失的,只能算是临时尝个鲜吧。
GPT-4o 加持的 ChatGPT 体验如何?
GPT-4o 给人的第一感觉就是 “快”!回复速度秒杀 GPT-4,甚至不输 GPT-3.5!
此外,理论上 GPT-4o 在知识库新鲜度、模型推理能力、视觉识别等方面相比 GPT-4 也有提升,这些都有待我们在日常使用中慢慢体会了。
实时语音对话的实际体验如何?
发布会上的实时语音对话 demo 确实炸裂,很多人惊呼电影《Her》中的场景已经成为现实。魔法哥实际体验如何?
很遗憾,魔法哥尝试了很多次,现有的安卓版 ChatGPT App 始终无法激活实时语音对话效果;群友也无人成功。
魔法哥尝试切换不同线路,用英语对话,甚至在 Google Play 商店参与了 OpenAI 的内测计划。即使安装了 Beta 版的 ChatGPT App,版本号比常规渠道更高,也依然没能试出实时语音对话功能。
如何判断当前语音对话仍然是传统的 “回合制交互”,而不是发布会上的 “实时交互”?魔法哥基于以下几点作出判断:
延时没有明显变短。OpenAI 官方表示,GPT-4o 对音频输入的响应时间可以做到几百毫秒级别。但现在仍然有 5 秒左右的延时。
无法感受语气。传统的回合制对话需要经历 语音识别 → 模型回复 → 语音合成 这三个环节,而用户的语气在第一个环节就会丢失。同理,发布会上演示的 “大口喘气” 也无法被模型感受到。
无法通过语音打断模型。语音界面的交互方式还是老样子,打断模型输出需要手动操作。而且返回对话界面可以发现,模型的回复其实已经全部生成好了,只是语音合成模块没有读完而已。
因此,魔法哥认为实时语音对话功能还没有正式上线;同样,发布会上演示的手机摄像头实时捕捉现实画面的功能也未开放,大家可以先期待一下。一旦有任何消息,魔法哥也会在群里第一时间通知。
GPT-4o API 效果如何?
上面提到,GPT-4o 的 API 已经上线了,开发者可以尝试在自己的项目中切换新到模型。
魔法哥也在第一时间做了初步测试,感受如下:
推理速度极快。和 GPT-3.5 Turbo 相当。
“Token 利用率” 明显提升。这一点也可以佐证 GPT-4o 是一个全新的模型,并不是简单地对 GPT-4 “打补丁”。
输出风格偏话痨。AI 应用开发者可能需要对提示词做更多的打磨和调试。
免费用户有哪些新福利?
OpenAI 借着 GPT-4o 的发布,给 ChatGPT 免费用户带来了一波大福利。当免费用户切换到 GPT-4o 时,可以享受以下这些原本是付费用户才能使用的高级功能:
而且 OpenAI 承诺将来还会有更多高级功能向免费用户解锁,付费会员纷纷表示 “被背刺”……哈哈,其实付费用户还是有特权的,免费用户的 GPT-4o 使用频次限制很大,想敞开用还是免不了付费的。
小结
OpenAI 的这次发布会依然没有让人失望,ChatGPT 的快速迭代仿佛让我们看到了未来的无限可能。让我们一起期待下一次的技术更新,也别忘了把这篇文章分享给身边的小伙伴哦!
魔法哥对 GPT-4o API 的测试还在持续进行中,稍后会为大家带来更加深入的观察和分享。各位新朋友请关注公众号,下次更新不迷路:
🔥 往期推荐
AI 应用开发指南:
ChatGPT 高级技巧:
AI 资讯与评述:
© Creative Commons BY-NC-ND 4.0 | 我要订阅 | 我要打赏
The text was updated successfully, but these errors were encountered: