Perplexity推出Comet浏览器测试版,网络浏览要变天啦!
嘿,各位上网冲浪的朋友们!最近有个大消息,Perplexity推出了Comet浏览器的测试版,不过目前只有部分Apple Silicon Mac用户能尝鲜,早期用户这周都收到邀请啦。Perplexity希望这些用户能多反馈使用中遇到的Bug和功能建议,好让产品越来越好。
这个 Comet 浏览器可不简单,它想用上下文感知智能来重新定义网络浏览体验。它会根据你平时的浏览历史和正在看的标签页,给你个性化的回应,而且这些信息都只保存在本地,不会拿去训练模型。每个网页上都有 Perplexity 的核心搜索功能,你不用切换标签页,在侧边栏就能查询、总结或者探索内容。
我测试的时候发现,它能从Google Chrome导入书签、密码这些信息。测试期间,还能通过“Comet 助手”接受指令,用语音或者文字就能打开、关闭标签页,还能分组标签、关闭重复标签,甚至检查购物车、找未回复的邮件。启动浏览器时,它还能屏蔽广告和跟踪器,不过你可以自己决定要不要禁用。不管在哪个网页,都能通过 URL 地址栏的“问”按钮找到Perplexity 助手。
另外,它特别强调能提高工作效率,邀请邮件里还说了分析收件箱、准备面试、生成会议记录这些使用案例,说是能“每周节省数小时的时间”。Perplexity说产品还在开发,每天都会改进,就等着大家的反馈啦。不过要注意,测试版的截图以后可能会变,而且现在只有 macOS 版本,Windows版本啥时候有还没消息呢。
复旦和腾讯联手,DICE-Talk让说话人视频生成有了真感情!
家人们,复旦大学和腾讯一起搞出了个大动作,推出了DICE-Talk说话人视频生成工具,这技术一出来,在行业里可引起不小的轰动!
DICE-Talk的厉害之处就在于它的身份 - 情感分离处理机制。以前那些生成工具,人物表情一变,外观也跟着变,看着可假了。但 DICE-Talk把说话人的身份特征,像面部细节、肤色,和情感表达,比如表情、语气,给分开了。这样就算情感变了,人物外观还是一样,不会出现“表情跳变”。它的协同情感处理技术还能让不同情感自然过渡,从喜悦到惊讶,就像真人表演一样流畅。
这个工具用起来也不难,你只要上传一张肖像图片和一段音频,系统就能自动生成相应情感的动态视频。它生成的视频情感表现特别真实,有中性、快乐、生气、惊讶好几种状态,影视制作、游戏开发、社交媒体这些领域都能用。
不过想用好它,硬件得跟上,至少得有 20GB 显存的 GPU,还得用独立的 Python3.10 环境,再装上FFmpeg和对应版本的 PyTorch。装好了之后,用简单的命令就能运行演示,看看这技术有多牛。而且它还有图形用户界面,操作起来更直观、更友好。
MiniMax Speech-02横扫全球TTS榜单,语音技术新标杆诞生!
宝子们,AI 语音领域要变天啦!MiniMax Audio 推出的 Speech-02 系列语音模型,在 Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 这两大权威榜单上,把 ElevenLabs、OpenAI 这些国际大牌都给比下去了,直接登顶榜首!
Speech-02 系列有 Speech-02-HD 和 Speech-02-Turbo 两款模型,分别针对高保真和实时应用场景优化。在 Artificial Analysis Speech Arena 的 ELO 评分里,Speech-02-HD 语音质量超高,排第一,Speech-02-Turbo 排第三。Hugging Face TTS Arena 的盲测结果也显示,用户听着 Speech-02 感觉比 ElevenLabs 和 OpenAI 的最新模型还好,社区里好评一片。
这模型厉害的地方可不少,它能零样本语音克隆,只要 10 秒音频就能克隆出高精度的语音,克隆后的声音和原声几乎一模一样。还能通过简单文本提示生成有情感的语音,快乐、悲伤、愤怒这些情绪都能调节。而且它支持 30 多种语言,全球主要语种都覆盖了,发音还特别地道。它还有动态暂停控制功能,能让语音节奏更自然,适合有声读物和 AI 配音这些复杂场景。
从架构上看,它用了自回归 Transformer 架构,结合可学习说话者编码器和 Flow-VAE 技术,提升了语音逼真度。低延迟特性也很牛,Speech-02-Turbo 在实时应用里能即时输出音频流,生成速度超快,适合虚拟助手和实时翻译。Speech-02-HD 就专注高保真场景,像专业配音和有声书制作。
这模型发布后,在社区里引发了广泛讨论,开发者都忙着测试它在播客、教育内容和 AI 助手这些领域的应用。而且它的定价也比 ElevenLabs低,中小企业和独立开发者用着更划算。MiniMax还通过 fal.ai 和 Replicate 平台提供 API 支持,开发者集成起来也方便。看来 AI 语音在全球市场要普及啦,多语言教育、跨境电商、沉浸式娱乐这些领域都有大潜力。
腾讯混元图像2.0来了,生图速度堪比闪电,画质超逼真!
各位搞设计、爱画画的朋友们注意啦!腾讯正式发布了腾讯混元图像 2.0 模型(Hunyuan Image2.0),这 AI 图像生成技术要进入“毫秒级”响应时代咯!
新模型在速度上那可是有了大飞跃,和前代产品比,参数量提高了一个数量级。它结合了高效的图像编解码器和全新的扩散架构,别的商业产品生成图像要5到10秒,它毫秒级就能搞定。你一边输入文本或者语音指令,一边就能看到实时图像输出,再也不用像以前那样“抽卡 - 等待 - 抽卡”了,交互体验直接拉满。
不光速度快,图像质量也提升了不少。它用了强化学习,还引入了好多人类美学知识,生成的图像没有那种浓浓的“AI味”,真实感超强,细节也丰富,实用性特别高。在国际权威的GenEval基准测试里,它在复杂文本指令的理解与生成能力评估中,准确率超过 95%,把其他同类模型都甩在后面了。
这次升级还推出了实时绘画板功能,利用新模型的实时生图能力,你画线稿或者调整参数的时候,预览区能同步生成上色效果。传统的“绘制-等待-修改”流程彻底成为过去式,专业设计师创作起来更方便了。而且实时绘画板支持多图融合,你可以上传多个草图,AI会自动协调透视与光影,按照你的提示词生成融合图像,互动体验更丰富了。
腾讯还说,原生多模态图像生成大模型正在研发中,新模型在多轮图像生成和实时交互体验方面会更出色,以后大家创作起来肯定更带劲!
Windsurf发布SWE-1系列,AI要给软件工程提效99%!
各位程序员朋友们,有个大新闻!Windsurf(原来叫 Codeium)正式发布了自主研发的 SWE-1 系列 AI 模型家族,包括 SWE-1、SWE-1-lite 和 SWE-1-mini。这个系列可不一般,它聚焦整个软件工程生命周期,从编码、调试到终端操作和多工具协作,全流程都能优化,据说能提效 99% 呢!
和传统 AI 编码模型不一样,SWE-1 系列以软件工程全流程优化为目标。它有个独特的流感知设计,能解决现有模型处理复杂、多界面、长周期任务的局限性。这个系列能无缝切换于终端、IDE 和浏览器这些开发环境,理解不完整的工作状态,还支持跨工具协作。
SWE-1 系列有三种模型,能满足不同用户需求。SWE-1 是旗舰模型,有高级推理和工具使用能力,性能接近 Claude3.5Sonnet,付费用户能无限用。SWE-1-lite 是轻量高效模型,能替换原来的 Cascade Base,免费和付费用户都能无限用。SWE-1-mini 是超轻量模型,给 Windsurf Tab 提供快速代码预测,所有用户都能用。
它的核心创新就是流感知,也就是 AI 和开发者在共享时间线上协作。Windsurf 用全新数据模型和专为软件工程设计的“训练配方”,让 SWE-1 能捕捉开发中的每个决策点,给出上下文感知的建议。内部测试显示,它在编码基准测试里表现接近 Claude3.5Sonnet,比大多数中型基础模型和开源模型都好。盲测结果也表明,用户对它生成的代码接受率和保留率更高,实际开发中很可靠。
这个系列的发布对开发者来说可太实用了。个人开发者用 SWE-1-lite 和 SWE-1-mini 能高效补全和预测代码,降低学习成本。初创公司用它多文件编辑和上下文理解,能加速原型开发,减少调试时间。企业团队用旗舰 SWE-1 能支持复杂工作流,像代码审查、自动化测试和跨工具协作,大规模项目管理更轻松。而且Windsurf说它部署成本比Claude3.5Sonnet 低,企业用户能省不少钱。开发者现在就能去 Windsurf Editor 体验啦。
CodeRabbit AI代码审查工具免费集成,开发环境大升级!
搞开发的宝子们,有个好消息!人工智能代码审查领域的领先企业CodeRabbit宣布,它的 AI代码审查工具现在免费集成到 Visual Studio Code(VS Code)、Cursor和Windsurf这些主流开发环境里啦,以后代码审查更轻松、更高效!
这个CodeRabbit AI 代码审查工具最厉害的就是它的上下文感知和实时反馈功能。你在 VS Code、Cursor 或者Windsurf 里提交代码,不管是已提交的还是没提交的更改,它都能马上分析,给你逐行建议,检测逻辑错误,还能扫描安全漏洞。它通过代码图分析和抽象语法树(AST)模式,能深入理解代码库的依赖关系、组织编码规范,还有外部动态数据,审查反馈特别精准。
和传统静态代码分析工具比,它的多层次审查机制更智能。它不光能在 IDE 里审查本地代码,还能在 Git 平台上全面分析拉取请求(PR),保证生产环境里代码又可靠又一致。开发者在社交媒体上都说,这个工具无缝集成,零配置安装,用起来就像呼吸一样自然。
它的免费 IDE 集成功能对各种开发场景都很有价值。个人开发的时候,你能在代码提交前马上得到反馈,快速修复错误,优化代码结构,后期返工就少了。开源项目开发者用它的免费计划,能维护高质量的代码库。企业团队和 GitHub、GitLab、Jira 这些平台集成,端到端的代码审查流程,手动审查时间能减半,检测出的错误还比手动审查多两倍。
而且它还有自然语言交互界面,你能用聊天的方式和 AI 沟通,细化审查需求或者获取代码建议,特别适合敏捷开发场景。自5月14 日宣布支持这些开发环境以来,社交媒体上讨论得可热闹了。开发者都说在 IDE 里实时审查代码,就像有个资深开发者搭档一直陪着你。不过也有人担心它会影响传统代码审查岗位,CodeRabbit强调这工具是辅助人工审查的,还通过严格隐私措施保证代码安全。
ElevenLabs推出SB-1 Infinite Soundboard,音效创作要起飞!
搞创作、玩直播、做影视的朋友们看过来!人工智能音频领域的领军企业ElevenLabs又搞出个大动作,推出了基于AI的可定制音效控制面板工具——SB-1 Infinite Soundboard。
这个SB-1 Infinite Soundboard的核心就是它基于Text-to-SFX 模型的音效生成能力。你只要用文字描述一下你想要的音效,像“暴风雨中的雷鸣”或者“复古科幻飞船引擎声”,它马上就能生成高质量、逼真的音效。它不光能生成传统音效,复杂环境音、节奏感强的鼓点都能搞定,简直就是音效创作的万能钥匙。
和传统音效库比,SB-1不用你在庞大的数据库里找音效,还不用验证版权,创作流程简单多了。社交媒体上的创作者都说,这工具即时性和灵活性太棒了,音效创作的效率和创意边界都被重新定义了。
它在好多行业都能带来革命性变革。直播和播客的时候,主播能用它即时生成符合场景的音效,节目沉浸感直接拉满。影视制作人用它快速生成定制化音效,后期混音成本都省了。现场表演者还能用它实现动态音效互动,像即兴广播剧里,能实时匹配演员台词的音效,沉浸式体验超棒。
ElevenLabs还说,SB-1 支持预设保存与分享功能,你注册个免费账户就能解锁完整功能,非专业人士也能轻松上手。自5月15日上线以来,社交媒体上讨论得可热烈了。创作者都说它解决了传统音效获取的痛点,版权限制和搜索耗时的问题都没了。有人还说它让音效创作像写句子一样简单,彻底改变了游戏规则。还有人畅想它在互动娱乐和教育内容里的潜力,比如给虚拟课堂加生动的音效背景。不过也有人担心它会影响传统音效师的职业,ElevenLabs还没回应,但它一直和创作者社区合作,态度挺正面的。作为 AI 音频领域的先锋,ElevenLabs这次又巩固了自己的地位,SB-1 以后说不定还能用到虚拟现实(VR)和游戏开发这些领域,给沉浸式体验加点料呢。