实时语音交互新宠儿——LLaMA-Omni 2登场
最近AI领域可是热闹得不行,有个叫LLaMA-Omni 2的新家伙横空出世了,据说能让咱们跟AI聊天变得超丝滑!这LLaMA-Omni 2是一系列语音语言模型,参数规模从0.5B到14B都有,就是为了实现高质量实时语音交互而生的。在Hugging Face上一发布,就引起了好多人的关注。
以前语音交互可麻烦了,得靠自动语音识别、LLM和文本转语音模型串联起来用,问题一大堆。错误会不断累积,响应延迟还高,也捕捉不到语音里的隐含信息。后来端到端的语音语言模型出现了,有原生和模块化两种。原生的是把语音离散成小单元,用类似GPT的解码器架构处理,优势是能利用大量无监督语音数据预训练,但缺点是需要大规模语音数据集,成本高,还可能遗忘文本能力。模块化的是在LLM基础上加语音编码器和解码器,好处是能发挥各模块能力,用少量数据微调就行,还能保留LLM原有能力。
LLaMA-Omni 2就是模块化里的佼佼者,它以Qwen2.5系列模型为基础,用了Whisper的编码器,语音解码器借鉴了CosyVoice2模型。研究团队还合成了200K多轮语音到语音的对话样本训练它,分两个阶段训练,让它能更好地学习各模块性能。
在实验评测里,LLaMA-Omni 2表现超棒。在口语问答和语音指令跟随任务中,都优于基线系统。不同参数规模下,小模型适合边缘设备,大模型潜力更大。而且研究人员还做了消融研究,发现门融合模块等因素对性能影响很大。虽然它现在还有局限性,但总体来说,LLaMA-Omni 2在语音交互领域迈出了重要一步,未来肯定能给咱们带来更多便利。
ACE-Step:音乐创作界的“闪电侠”
嘿,你知道吗?最近有个叫ACE-Step的音乐生成“基础模型”亮相了,被大家称为“音乐界的Stable Diffusion”。它可厉害了,支持19种语言,20秒就能生成一首4分钟的完整歌曲,效率比主流模型快15倍以上!
ACE-Step的核心功能那叫一个牛。它能歌词驱动创作,你输入歌词,它就能自动生成旋律并演唱完整歌曲;还能风格化编曲,根据你指定的风格标签,自动生成伴奏和配器;要是你对歌曲某段歌词不满意,它还支持精准修改,不影响原有旋律的连贯性;它还能生成带风格的说唱、电子乐、人声或复杂配器,满足不同音乐场景需求。
这ACE-Step技术上也有突破。它基于DiT架构,采用轻量化设计,能在消费级GPU上运行,降低了硬件门槛。在A100GPU上,20秒就能生成4分钟高质量音乐。而且它和StepFun的Step-1语言模型结合,实现了跨模态音乐理解与生成的高效融合。
更厉害的是,它是开源模型,在GitHub上向开发者开放了。社区开发者可以基于它开发定制化的音乐生成工具,推动AI音乐生态繁荣。ACE-Step的发布展示了ACE Studio与StepFun在AI音乐生成领域的技术积累,也给全球音乐创作者提供了一个高效、灵活的创作平台。未来,它有望成为AI音乐创作领域的标杆,引领“人机共创”的新潮流,让音乐创作变得更简单、更有趣!
腾讯元宝「对话分组」功能:聊天记录的“收纳神器”
家人们,腾讯元宝上线了一个超实用的新功能——「对话分组」。这功能就像给咱们的聊天记录找了个“收纳神器”,能帮咱们更好地管理和组织跟元宝的聊天记录。
有了这个功能,咱们可以给和元宝的聊天创建文件夹,就像在电脑上整理文件一样。比如咱们可以根据写作、工作安排、口语练习等不同需求,创建「灵感库」、「ToDo清单」、「英语对话」等分组。不管是简短的对话还是几百条的聊天记录,都能快速找到。
而且,它还支持把历史对话迁移到相应的分组里。那些暂时用不上的金句或者突发奇想的好主意,都能归类集中管理。每个分组还能设置独立的提示词指令,咱们可以给每个分组设定特定的语气、风格或任务目标。像在「全英对话」组里,所有问题都用英文回答;在「灵感写作」组里,对话保持人物设定和语气的一致性;在「工作事务」组里,输出内容结构清晰、格式统一。
这么一来,咱们就能把元宝打造成多个角色,比如写作伙伴、职场助理、英语陪练或者灵感捕手。每个分组风格一致,在不同任务之间切换也更顺畅。腾讯元宝的「对话分组」功能在手机版、电脑版和网页版都全面上线了,完全免费还不限制使用次数。以后咱们跟元宝聊天就更方便啦,再也不用在茫茫聊天记录里翻找啦!
商汤科技携手合作,共推视觉AI与大模型发展
最近,商汤科技在香港搞了个大动作,它和中国移动香港有限公司还有香港中文大学法学院签署了合作备忘录,要在视觉人工智能(AI)与大模型技术等领域深入合作。
商汤科技在视觉AI领域那可是经验丰富、技术过硬。这次和中国移动香港合作,就是想借助人家的网络基础设施和市场资源,把视觉AI技术应用到更广泛的领域,像智慧城市、智能交通和公共安全这些。中国移动香港也能从商汤的技术里受益,提升智能服务能力。
而香港中文大学法学院的加入,那可是给这次合作注入了法律与伦理的考量。现在AI技术发展得快,怎么在保证技术创新的同时,维护用户隐私和数据安全,成了个大问题。法学院的参与,就能给商汤和中移动在技术应用时提供法律支持,让相关项目符合伦理标准和法律法规。
这次合作对商汤科技来说,是个扩展市场的好机会,也能推动香港科技创新和法治环境协同发展。三方一起努力,能让更多AI应用落地,满足市场需求,促进产业智能化转型。通过这种跨界合作,商汤科技希望以后在AI技术应用里,能更好地平衡技术创新和法律伦理的关系,给社会带来更多好处。以后AI技术肯定能在更多领域大放异彩!
Perplexity AI推出Comet浏览器,要跟Chrome掰掰手腕
嘿,最近互联网浏览器市场要有大变化啦!Perplexity AI宣布要在本月推出新款AI驱动的Comet浏览器,要挑战Google Chrome的霸主地位呢!
其实Comet浏览器的构想早就有了,最近用户发现Perplexity官网上新增了个“Learn Comet”按钮,还曾短暂公开过宣传视频。这Comet浏览器要用AI技术,让用户在线研究更高效。它的核心功能之一就是能自动访问浏览历史,帮用户快速找到之前看过的网页。比如说,你问“上周二我查看的关于海獭的文章在哪里”,它就能智能检索给你提供信息,省得你在多个标签页里翻找了。
Perplexity AI的首席执行官阿拉文德・斯里尼瓦斯对Comet那是信心满满,还说“Chrome的时代已近尾声”。不过用户对隐私有点担忧,Comet也考虑到了,设有隐私设置,有内置广告拦截器和数据共享选择退出功能,保证用户信息安全。
现在其他浏览器制造商也在提升产品,微软的Edge浏览器在引入更多AI功能,Google Chrome也预计要在Google I/O大会上推新功能。Comet要想脱颖而出,得提供直观的AI辅助功能,帮用户聚焦和整理信息。要是它能改善用户浏览体验,肯定能吸引不少新用户。要是你对现有浏览器不满意,Comet说不定能给你全新解决方案,咱们就拭目以待吧!
Claude移动应用语音模式来袭,多种声音任你选
家人们,Anthropic的Claude移动应用要迎来一次重要升级啦,新增的语音模式功能可太让人期待了!
据TestingCatalog周日报道,Claude的语音模式采用推按式对话方式,还支持多种声音选项。在语音模式下,Claude不仅能进行语音对话,还有网页搜索能力。你搜索结果会列出来源,就像桌面版本一样。输出结果会整理成要点,方便你理解和跟进。你还能在一个可滚动的视图中浏览它的回复,互动体验更好。
而且,语音模式还支持文件上传功能。你可以把图片或文档添加到对话里,和Claude语音交流时把这些文件当上下文参考。这么一来,Claude处理复杂任务就更灵活高效了。
不过呢,这语音模式在使用时不支持对话中的中断,你得手动点击按钮发送输入来控制对话进程,这点和ChatGPT的语音模式不一样。但报道说Claude在语音输入的稳定性和可靠性上表现更好。
有了语音模式,AI聊天机器人在实时翻译、模拟面试、克服写作障碍、会议准备和导游服务等方面应用就更广泛了。就像有个印度学生,用ChatGPT的语音模式和司机讨价还价,多方便呐。以后咱们用Claude的时候,说不定也能遇到各种实用的场景,给咱们的生活带来更多便利。
Suno v4.5上线,付费用户专享音乐创作新体验
音乐创作爱好者们注意啦!人工智能音乐生成平台Suno最近正式推出最新模型v4.5,给音乐创作领域又添了一把火。不过这次新版本目前只对Pro和Premier付费用户开放使用。
v4.5的升级那可不少。它支持更广泛的音乐风格,还能智能混搭,像“中西部情绪摇滚+新灵魂乐”或者“电子舞曲+民谣”这种复杂组合都不在话下,让你可以探索更有创意的音乐表达。它的声线表现也更强了,从低语到高亢的钩子都能精准呈现,音域和情感深度都提升了。音效层次也更复杂,能捕捉到“树叶纹理”或者“旋律口哨”这种细腻的细节,让音乐更有层次感和沉浸感。而且它对提示词的响应精度更高,你输入的描述能更准确地转化成音乐输出。歌曲生成时长也从4分钟延长到了8分钟,不用Extend功能就能创作更长的作品。
v4.5还引入了提示词增强助手,帮你把简单的风格想法变成详细的创作指令,降低创作门槛。付费用户不仅能体验v4.5,还有不少特权。Pro计划每月给2500积分,约500首歌;Premier计划给10000积分,约2000首歌。付费用户生成的音乐还有商业使用许可,能用于YouTube变现、Spotify分发等商业场景,免费用户的作品就只能非商业用途啦。而且付费用户还能优先访问Remaster、ReMi歌词模型以及更新的封面艺术设计等高级功能。
Suno从2024年以来发展得可快了,用户规模都从年初的1000万增长到2500万了。v4.5的推出进一步巩固了它在AI音乐生成领域的领先地位。不过它也面临一些争议,像被三大唱片公司起诉未经授权使用受版权保护的音乐训练AI模型。但不管怎样,v4.5的发布还是显示了Suno对技术创新的决心。