每日AI资讯-05月16日-AITOP100,AI资讯

Perplexity推出Comet浏览器测试版，网络浏览要变天啦！

嘿，各位上网冲浪的朋友们！最近有个大消息，Perplexity推出了Comet浏览器的测试版，不过目前只有部分Apple Silicon Mac用户能尝鲜，早期用户这周都收到邀请啦。Perplexity希望这些用户能多反馈使用中遇到的Bug和功能建议，好让产品越来越好。

这个 Comet 浏览器可不简单，它想用上下文感知智能来重新定义网络浏览体验。它会根据你平时的浏览历史和正在看的标签页，给你个性化的回应，而且这些信息都只保存在本地，不会拿去训练模型。每个网页上都有 Perplexity 的核心搜索功能，你不用切换标签页，在侧边栏就能查询、总结或者探索内容。

我测试的时候发现，它能从Google Chrome导入书签、密码这些信息。测试期间，还能通过“Comet 助手”接受指令，用语音或者文字就能打开、关闭标签页，还能分组标签、关闭重复标签，甚至检查购物车、找未回复的邮件。启动浏览器时，它还能屏蔽广告和跟踪器，不过你可以自己决定要不要禁用。不管在哪个网页，都能通过 URL 地址栏的“问”按钮找到Perplexity 助手。

另外，它特别强调能提高工作效率，邀请邮件里还说了分析收件箱、准备面试、生成会议记录这些使用案例，说是能“每周节省数小时的时间”。Perplexity说产品还在开发，每天都会改进，就等着大家的反馈啦。不过要注意，测试版的截图以后可能会变，而且现在只有 macOS 版本，Windows版本啥时候有还没消息呢。

Perplexity

复旦和腾讯联手，DICE-Talk让说话人视频生成有了真感情！

家人们，复旦大学和腾讯一起搞出了个大动作，推出了DICE-Talk说话人视频生成工具，这技术一出来，在行业里可引起不小的轰动！

DICE-Talk的厉害之处就在于它的身份 - 情感分离处理机制。以前那些生成工具，人物表情一变，外观也跟着变，看着可假了。但 DICE-Talk把说话人的身份特征，像面部细节、肤色，和情感表达，比如表情、语气，给分开了。这样就算情感变了，人物外观还是一样，不会出现“表情跳变”。它的协同情感处理技术还能让不同情感自然过渡，从喜悦到惊讶，就像真人表演一样流畅。

这个工具用起来也不难，你只要上传一张肖像图片和一段音频，系统就能自动生成相应情感的动态视频。它生成的视频情感表现特别真实，有中性、快乐、生气、惊讶好几种状态，影视制作、游戏开发、社交媒体这些领域都能用。

不过想用好它，硬件得跟上，至少得有 20GB 显存的 GPU，还得用独立的 Python3.10 环境，再装上FFmpeg和对应版本的 PyTorch。装好了之后，用简单的命令就能运行演示，看看这技术有多牛。而且它还有图形用户界面，操作起来更直观、更友好。

DICE-Talk

MiniMax Speech-02横扫全球TTS榜单，语音技术新标杆诞生！

宝子们，AI 语音领域要变天啦！MiniMax Audio 推出的 Speech-02 系列语音模型，在 Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 这两大权威榜单上，把 ElevenLabs、OpenAI 这些国际大牌都给比下去了，直接登顶榜首！

Speech-02 系列有 Speech-02-HD 和 Speech-02-Turbo 两款模型，分别针对高保真和实时应用场景优化。在 Artificial Analysis Speech Arena 的 ELO 评分里，Speech-02-HD 语音质量超高，排第一，Speech-02-Turbo 排第三。Hugging Face TTS Arena 的盲测结果也显示，用户听着 Speech-02 感觉比 ElevenLabs 和 OpenAI 的最新模型还好，社区里好评一片。

这模型厉害的地方可不少，它能零样本语音克隆，只要 10 秒音频就能克隆出高精度的语音，克隆后的声音和原声几乎一模一样。还能通过简单文本提示生成有情感的语音，快乐、悲伤、愤怒这些情绪都能调节。而且它支持 30 多种语言，全球主要语种都覆盖了，发音还特别地道。它还有动态暂停控制功能，能让语音节奏更自然，适合有声读物和 AI 配音这些复杂场景。

从架构上看，它用了自回归 Transformer 架构，结合可学习说话者编码器和 Flow-VAE 技术，提升了语音逼真度。低延迟特性也很牛，Speech-02-Turbo 在实时应用里能即时输出音频流，生成速度超快，适合虚拟助手和实时翻译。Speech-02-HD 就专注高保真场景，像专业配音和有声书制作。

这模型发布后，在社区里引发了广泛讨论，开发者都忙着测试它在播客、教育内容和 AI 助手这些领域的应用。而且它的定价也比 ElevenLabs低，中小企业和独立开发者用着更划算。MiniMax还通过 fal.ai 和 Replicate 平台提供 API 支持，开发者集成起来也方便。看来 AI 语音在全球市场要普及啦，多语言教育、跨境电商、沉浸式娱乐这些领域都有大潜力。

MiniMax Speech-02

腾讯混元图像2.0来了，生图速度堪比闪电，画质超逼真！

各位搞设计、爱画画的朋友们注意啦！腾讯正式发布了腾讯混元图像 2.0 模型（Hunyuan Image2.0），这 AI 图像生成技术要进入“毫秒级”响应时代咯！

新模型在速度上那可是有了大飞跃，和前代产品比，参数量提高了一个数量级。它结合了高效的图像编解码器和全新的扩散架构，别的商业产品生成图像要5到10秒，它毫秒级就能搞定。你一边输入文本或者语音指令，一边就能看到实时图像输出，再也不用像以前那样“抽卡 - 等待 - 抽卡”了，交互体验直接拉满。

不光速度快，图像质量也提升了不少。它用了强化学习，还引入了好多人类美学知识，生成的图像没有那种浓浓的“AI味”，真实感超强，细节也丰富，实用性特别高。在国际权威的GenEval基准测试里，它在复杂文本指令的理解与生成能力评估中，准确率超过 95%，把其他同类模型都甩在后面了。

这次升级还推出了实时绘画板功能，利用新模型的实时生图能力，你画线稿或者调整参数的时候，预览区能同步生成上色效果。传统的“绘制-等待-修改”流程彻底成为过去式，专业设计师创作起来更方便了。而且实时绘画板支持多图融合，你可以上传多个草图，AI会自动协调透视与光影，按照你的提示词生成融合图像，互动体验更丰富了。

腾讯还说，原生多模态图像生成大模型正在研发中，新模型在多轮图像生成和实时交互体验方面会更出色，以后大家创作起来肯定更带劲！

腾讯混元图像2.0

Windsurf发布SWE-1系列，AI要给软件工程提效99%！

各位程序员朋友们，有个大新闻！Windsurf（原来叫 Codeium）正式发布了自主研发的 SWE-1 系列 AI 模型家族，包括 SWE-1、SWE-1-lite 和 SWE-1-mini。这个系列可不一般，它聚焦整个软件工程生命周期，从编码、调试到终端操作和多工具协作，全流程都能优化，据说能提效 99% 呢！

和传统 AI 编码模型不一样，SWE-1 系列以软件工程全流程优化为目标。它有个独特的流感知设计，能解决现有模型处理复杂、多界面、长周期任务的局限性。这个系列能无缝切换于终端、IDE 和浏览器这些开发环境，理解不完整的工作状态，还支持跨工具协作。

SWE-1 系列有三种模型，能满足不同用户需求。SWE-1 是旗舰模型，有高级推理和工具使用能力，性能接近 Claude3.5Sonnet，付费用户能无限用。SWE-1-lite 是轻量高效模型，能替换原来的 Cascade Base，免费和付费用户都能无限用。SWE-1-mini 是超轻量模型，给 Windsurf Tab 提供快速代码预测，所有用户都能用。

它的核心创新就是流感知，也就是 AI 和开发者在共享时间线上协作。Windsurf 用全新数据模型和专为软件工程设计的“训练配方”，让 SWE-1 能捕捉开发中的每个决策点，给出上下文感知的建议。内部测试显示，它在编码基准测试里表现接近 Claude3.5Sonnet，比大多数中型基础模型和开源模型都好。盲测结果也表明，用户对它生成的代码接受率和保留率更高，实际开发中很可靠。

这个系列的发布对开发者来说可太实用了。个人开发者用 SWE-1-lite 和 SWE-1-mini 能高效补全和预测代码，降低学习成本。初创公司用它多文件编辑和上下文理解，能加速原型开发，减少调试时间。企业团队用旗舰 SWE-1 能支持复杂工作流，像代码审查、自动化测试和跨工具协作，大规模项目管理更轻松。而且Windsurf说它部署成本比Claude3.5Sonnet 低，企业用户能省不少钱。开发者现在就能去 Windsurf Editor 体验啦。

SWE-1

CodeRabbit AI代码审查工具免费集成，开发环境大升级！

搞开发的宝子们，有个好消息！人工智能代码审查领域的领先企业CodeRabbit宣布，它的 AI代码审查工具现在免费集成到 Visual Studio Code（VS Code）、Cursor和Windsurf这些主流开发环境里啦，以后代码审查更轻松、更高效！

这个CodeRabbit AI 代码审查工具最厉害的就是它的上下文感知和实时反馈功能。你在 VS Code、Cursor 或者Windsurf 里提交代码，不管是已提交的还是没提交的更改，它都能马上分析，给你逐行建议，检测逻辑错误，还能扫描安全漏洞。它通过代码图分析和抽象语法树(AST)模式，能深入理解代码库的依赖关系、组织编码规范，还有外部动态数据，审查反馈特别精准。

和传统静态代码分析工具比，它的多层次审查机制更智能。它不光能在 IDE 里审查本地代码，还能在 Git 平台上全面分析拉取请求（PR），保证生产环境里代码又可靠又一致。开发者在社交媒体上都说，这个工具无缝集成，零配置安装，用起来就像呼吸一样自然。

它的免费 IDE 集成功能对各种开发场景都很有价值。个人开发的时候，你能在代码提交前马上得到反馈，快速修复错误，优化代码结构，后期返工就少了。开源项目开发者用它的免费计划，能维护高质量的代码库。企业团队和 GitHub、GitLab、Jira 这些平台集成，端到端的代码审查流程，手动审查时间能减半，检测出的错误还比手动审查多两倍。

而且它还有自然语言交互界面，你能用聊天的方式和 AI 沟通，细化审查需求或者获取代码建议，特别适合敏捷开发场景。自5月14 日宣布支持这些开发环境以来，社交媒体上讨论得可热闹了。开发者都说在 IDE 里实时审查代码，就像有个资深开发者搭档一直陪着你。不过也有人担心它会影响传统代码审查岗位，CodeRabbit强调这工具是辅助人工审查的，还通过严格隐私措施保证代码安全。

CodeRabbit AI

ElevenLabs推出SB-1 Infinite Soundboard，音效创作要起飞！

搞创作、玩直播、做影视的朋友们看过来！人工智能音频领域的领军企业ElevenLabs又搞出个大动作，推出了基于AI的可定制音效控制面板工具——SB-1 Infinite Soundboard。

这个SB-1 Infinite Soundboard的核心就是它基于Text-to-SFX 模型的音效生成能力。你只要用文字描述一下你想要的音效，像“暴风雨中的雷鸣”或者“复古科幻飞船引擎声”，它马上就能生成高质量、逼真的音效。它不光能生成传统音效，复杂环境音、节奏感强的鼓点都能搞定，简直就是音效创作的万能钥匙。

和传统音效库比，SB-1不用你在庞大的数据库里找音效，还不用验证版权，创作流程简单多了。社交媒体上的创作者都说，这工具即时性和灵活性太棒了，音效创作的效率和创意边界都被重新定义了。

它在好多行业都能带来革命性变革。直播和播客的时候，主播能用它即时生成符合场景的音效，节目沉浸感直接拉满。影视制作人用它快速生成定制化音效，后期混音成本都省了。现场表演者还能用它实现动态音效互动，像即兴广播剧里，能实时匹配演员台词的音效，沉浸式体验超棒。

ElevenLabs还说，SB-1 支持预设保存与分享功能，你注册个免费账户就能解锁完整功能，非专业人士也能轻松上手。自5月15日上线以来，社交媒体上讨论得可热烈了。创作者都说它解决了传统音效获取的痛点，版权限制和搜索耗时的问题都没了。有人还说它让音效创作像写句子一样简单，彻底改变了游戏规则。还有人畅想它在互动娱乐和教育内容里的潜力，比如给虚拟课堂加生动的音效背景。不过也有人担心它会影响传统音效师的职业，ElevenLabs还没回应，但它一直和创作者社区合作，态度挺正面的。作为 AI 音频领域的先锋，ElevenLabs这次又巩固了自己的地位，SB-1 以后说不定还能用到虚拟现实（VR）和游戏开发这些领域，给沉浸式体验加点料呢。

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯