9个小时前,OpenAI在推特上发布了一款全新AI模型——GPT-4o。这款模型被业界誉为“全能”模型,因为它具备处理文本、语音和视频输入的能力。GPT-4o的问世,标志着OpenAI在深度学习领域取得了重要突破,为AI技术的发展和应用开启了新的篇章。
openai在推特上发布的这条推文仅仅9个小时就获得了859万的阅读量,4.3万的点赞和1.6万的转发,立即火爆全网!
推文链接: https://x.com/OpenAI/status/1790072174117613963
GPT-4o官方链接: https://openai.com/index/hello-gpt-4o/
GPT-4o的特点我给大家总结下:
1.实时语音问答,并赋予感情交流。
2.通过摄像头视觉传达内容(文字/图形)
3.捕捉桌面信息进行辅助编程与问答
4.通过视觉解析图形报表,总结分析
5.视频通话可实时翻译,支持多国语言
OpenAI发布会的视频内容
以下是本次OpenAI发布会的视频内容,方便大家观看,不用使用梯子了
GPT-4o模型的特点在于其速度更快,同时在文本、视频和音频方面的能力也有所提升。据悉,GPT-4o的“o”代表“omni”,意味着它能够处理多种不同类型的输入。这使得ChatGPT能够以更高的速度和品质处理50种不同的语言,进一步拓展了AI技术的应用范围。
OpenAI的技术负责人Mira Murati在直播活动中表示,GPT-4o的速度是GPT-4的两倍,成本则是GPT-4 Turbo的一半。这一性能的提升,使得GPT-4o在处理大规模数据和应用时更具优势。此外,OpenAI的研究人员还展示了GPT-4o的音频能力,例如,在公共演讲前帮助某人平静下来。这个模型能够“感知你的情绪”,并且能够处理用户的打断。
值得一提的是,GPT-4o还能够分析用户面部表情以评论其可能体验到的情绪。这一功能的加入,使得GPT-4o在人际交流中更具表现力。OpenAI计划在接下来的几周内对其语音模式进行测试,并向ChatGPT Plus的付费订阅用户提供早期访问。
OpenAI表示,这个新模型能够对用户的音频提示做出反应,反应时间仅需232毫秒,平均为320毫秒,这与人际交流中的反应时间相似。这一突破,将使得AI在语音交互领域更具竞争力。
此次GPT-4o的发布,是OpenAI自去年8月推出ChatGPT Enterprise以来最大的一次公告。ChatGPT Enterprise是AI聊天机器人的商业版本,当时有超过20家不同规模和行业的公司参与了开发。如今,GPT-4o的问世,将进一步推动AI技术在各行业的应用和发展。
总之,GPT-4o的发布,标志着OpenAI在AI技术领域的又一次突破。这款全能AI模型将为多模态交互新时代的到来奠定基础,推动AI技术在各行业的广泛应用。未来,我们有理由相信,GPT-4o将为人类带来更多意想不到的惊喜和改变。