• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

OpenAI 发布 GPT-4o Transcribe 等全新语音模型,语音 AI 迎来新突破

OpenAI 发布 GPT-4o Transcribe 等全新语音模型,语音 AI 迎来新突破
AI TOP100
2025-03-21 11:00:11

继在语音 AI 领域取得进展后,OpenAI 再次发力,推出三款全新自主研发语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。其中,gpt-4o-transcribe 最受关注。

AI语音

这些新模型已通过 API 向第三方开发者开放,开发者可利用它们构建更智能的应用。OpenAI 还提供 OpenAI.fm 演示网站供个人用户体验。

openai.fm

核心功能详解

gpt-4o-transcribe 是 OpenAI 两年前发布的开源语音转录模型 Whisper 的升级版,旨在提供更低的文字错误率和更强大的性能。

openai

OpenAI 数据显示,在 33 种语言测试中,gpt-4o-transcribe 的错误率较 Whisper 显著下降,尤其在英语方面,错误率仅为 2.46%!这对于高精度语音转录场景意义重大。

该模型在复杂环境下也能保持出色性能。无论在嘈杂环境,面对不同口音,还是处理快慢语速,gpt-4o-transcribe 都能提供更准确的转录结果,并支持 100 多种语言。

为提升转录准确性,gpt-4o-transcribe 还加入了噪声消除和语义语音活动检测技术。

OpenAI 技术人员 Jeff Harris 解释说,语义语音活动检测可帮助模型判断说话者是否表达完整想法,避免断句错误,提高转录质量。此外,gpt-4o-transcribe 还支持流式语音转文本,开发者可持续输入音频并实时获得文本结果,使对话更自然。

需要注意,gpt-4o-transcribe 模型家族目前不具备“说话人分离”(diarization)功能,主要专注于将接收到的音频(包含多人声音)统一转录成文本,不区分和标记不同说话人。

虽然在需要区分发言人的场合存在限制,但其在提高整体转录准确性方面的优势依然显著。

API 接口开放:开发者先行

gpt-4o-transcribe 已通过 OpenAI 的 API 接口提供给开发者使用。开发者可快速将该语音转录能力集成到应用中,为用户带来更便捷的语音交互体验。

OpenAI 在直播中演示,对于基于 GPT-4o 等文本大模型构建的应用,只需约九行代码 就能轻松添加语音交互功能。例如,电商应用可快速实现语音回复用户订单信息咨询。

OpenAI 表示,考虑到 ChatGPT 在成本和性能方面的特殊需求,这些新模型暂不直接应用于 ChatGPT,但预计未来会逐步整合。对于追求更低延迟、实时语音交互的开发者,OpenAI 推荐使用 Realtime API 中的语音到语音模型。

凭借强大的语音转录能力,gpt-4o-transcribe 有望在客户呼叫中心、会议纪要自动生成以及 AI 驱动的智能助手等领域大显身手。一些体验过新模型的公司反馈称,OpenAI 的音频模型显著提升了语音 AI 的性能。

当然,OpenAI 也面临来自其他语音 AI 公司的竞争,如 ElevenLabs 的 Scribe 模型具备较低的错误率和说话人分离功能。Hume AI 的 Octave TTS 模型在发音和情感控制方面提供更精细的自定义选项。开源社区也有不断涌现的先进语音模型。

根据您提供的源,以下是 OpenAI 新语音模型的定价信息以及一些相关的竞品价格:

模型API定价:

  • gpt-4o-transcribe: 每100万个音频输入 tokens 的价格为 $6.00,约合每分钟 $0.006。
  • gpt-4o-mini-transcribe: 每100万个音频输入 tokens 的价格为 $3.00,约合每分钟 $0.003。
  • gpt-4o-mini-tts: 每100万个文本输入 tokens 的价格为 $0.60,每100万个音频输出 tokens 的价格为 $12.00,约合每分钟 $0.015。

竞品模型定价:

  • ElevenLabs Scribe: 每小时音频输入的定价为 $0.40,约合每分钟 $0.006。
  • Orpheus3B: 基于 Apache2.0许可开源,开发者可以免费使用,但需要自备相应的硬件或云服务器。

需要注意的是,不同模型的计费方式可能存在差异(例如,基于 token 数量、时长等),因此直接比较价格时需要考虑这些因素。

OpenAI 发布的 gpt-4o-transcribe 等新语音模型,在语音转录领域展现出强大实力和潜力。虽然目前主要面向开发者,但其在提升语音交互体验方面的价值不容忽视。未来,随着技术发展,我们或能看到更多令人惊喜的语音 AI 应用涌现。

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • ChatGPT:OpenAI大型语言模型
相关资讯
  • Suno v4.5+版本更新:集成先进人声替换技术,实现原唱人声换为其他人声音。

  • 重磅!LTX Studio正式发布LTX-Video13B开源视频生成模型

  • Mistral AI新动作:Le Chat强势来袭,向ChatGPT霸主地位发起挑战

  • ChatGPT上线音频转录功能:Mac付费用户专属的“会议救星”来了!

  • Anthropic估值破1000亿美元:AI赛道黑马如何跑出“火箭速度”?

热点资讯

马斯克放大招!Grok AI上线动漫AI伴侣,每月30美元能聊“二次元”

5天前
马斯克放大招!Grok AI上线动漫AI伴侣,每月30美元能聊“二次元”

中央美院首届AIGC艺术展来了!7月解锁「数艺拂晓」新体验

3天前
中央美院首届AIGC艺术展来了!7月解锁「数艺拂晓」新体验

会说话的AI编程工具?字节跳动TRAE2.0将加入语音交互

3天前
会说话的AI编程工具?字节跳动TRAE2.0将加入语音交互

每日AI资讯-2025年07月17日

2天前
每日AI资讯-2025年07月17日

美图AI Agent-RoboNeo重磅登场!“一句话”解锁影像与设计新生产力

6天前
美图AI Agent-RoboNeo重磅登场!“一句话”解锁影像与设计新生产力
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有