• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

通义CoGenAV:听说它让语音识别在吵闹环境里也能听得清?

通义CoGenAV:听说它让语音识别在吵闹环境里也能听得清?
AI TOP100
2025-05-29 10:04:40

吵杂环境也能听清?通义CoGenAV这波操作有点牛!

最近,阿里通义的大模型团队搞了个大新闻,他们发布了个叫CoGenAV的新玩意儿。这名字听着就高大上,但简单来说,它能让语音识别在嘈杂的环境下也能听得更清楚!这背后的秘诀就是:音画同步。

大家都知道,传统的语音识别遇到点噪音就歇菜了。CoGenAV就不一样了,它聪明地学习了音频、视频和文本之间的关系,建立了一个更强大的“语音理解”框架。这样一来,无论是语音识别、语音重建还是语音同步,效果都蹭蹭往上涨。

CoGenAV

“对比生成同步”:CoGenAV的核心武器

CoGenAV的技术核心在于“对比生成同步”策略。简单说就是:

  • 提取特征:CoGenAV会观察你说话时的嘴型(通过分析视频),同时提取音频中的语音信息,并将两者精准对应。
  • 对比同步:它会加强音频和视频特征之间的关联,就像在吵闹的酒吧里,你下意识地会盯着对方的嘴巴,更容易听清他在说什么。
  • 生成同步:它会利用预先训练好的语音识别模型,将音视频信息与相应的文字对应起来,提高跨模态信息的融合效率。

效果到底有多好?数据说话!

CoGenAV在各种测试中都表现出色,简直像开了挂一样:

  • 视觉语音识别(VSR):只用了223小时的唇语视频训练,效果就能媲美那些用几千小时数据训练的传统模型!
  • 音视频语音识别(AVSR):在嘈杂的环境下,性能提升超过80%!这简直是质的飞跃。
  • 语音增强与分离(AVSE/AVSS):在分离混合语音和增强语音清晰度方面,表现都超过了之前的先进模型。
  • 主动说话人检测(ASD):能准确地判断出谁在说话,准确率高达96.3%。

CoGenAV的优势:实用又省钱!

CoGenAV可以直接接入现有的主流语音识别模型,比如Whisper,不需要进行复杂的修改或微调。这意味着部署门槛更低,抗噪能力更强,而且能节省大量的训练成本。简单来说,就是好用又省钱!

更棒的是,CoGenAV已经开源了!研究者和开发者们可以免费使用它,一起推动语音识别技术的发展。

总结

通义CoGenAV的出现,为语音识别领域带来了新的希望。它不仅在技术上有所突破,而且在实用性和成本控制方面也表现出色。相信在不久的将来,我们就能在各种嘈杂的环境中,享受到更加清晰、准确的语音识别服务了!

github地址:https://github.com/HumanMLLM/CoGenAV

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 豆包Seedream 4.0种草活动,丰厚奖励等你来拿!

  • 蚂蚁集团在2025Inclusion·外滩大会上正式发布全球首个智能眼镜可信连接技术框架— gPass

  • MiniMax Music 1.5音乐生成模型上线:聚焦音乐生成质量与控制力,出品即达成品级

  • 阿里开源新突破:Qwen3-Next-80B-A3B模型,性能效率双飞跃

  • 字节跳动推出USO模型:实现AI图像生成“风格与主题”的完美融合

热点资讯

Replit Agent3震撼登场:自主性飙升10倍,编程效率开启“狂飙”模式!

3天前
Replit Agent3震撼登场:自主性飙升10倍,编程效率开启“狂飙”模式!

即梦图片4.0重磅发布:一站式支持文生图、图像编辑与组图生成

6天前
即梦图片4.0重磅发布:一站式支持文生图、图像编辑与组图生成

OpenAI重磅更新:ChatGPT开发者模式上线,AI首次具备工具调用能力

3天前
OpenAI重磅更新:ChatGPT开发者模式上线,AI首次具备工具调用能力

快手上线AI视频制作助手磁力开创:从脚本到成片只需几分钟

3天前
快手上线AI视频制作助手磁力开创:从脚本到成片只需几分钟

豆包Seedream4.0对比NanoBanana 全面评测:国产AI图像生成新标杆

4天前
豆包Seedream4.0对比NanoBanana 全面评测:国产AI图像生成新标杆
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有