每日AI资讯-10月22日-AITOP100,AI资讯

马斯克旗下xAI发布首个API

来源：36氪

当地时间周一，马斯克在旗下社交媒体X上发帖称，他旗下的人工智能初创公司xAI首款API现已上线。xAI的API支持函数调用，可将旗舰生成式AI模型Grok连接到数据库和搜索引擎等外部工具，有网友称“旨在彻底改变X上的AI交互”。目前API中只有一个模型可用，未来可能会有分析文本和图像的视觉模型。xAI API的定价是每百万输入令牌（token，约等于75万个单词）为5美元，每百万输出令牌为15美元。被有的网友评价为“颇为大胆的定价模式”。（第一财经）

马斯克旗下xAI发布首个API

手机业AI赛纠偏，厂商从“All in”回归用户体验

来源：36氪

去年以来，手机行业掀起了一场激烈的生成式人工智能（AIGC）竞赛，各厂商纷纷发力AI，苹果、荣耀、vivo、OPPO等手机厂商纷纷“All in AI”。如今AI手机落地已近一年，行业AI竞争正从过往的盲目发力，发展到当下的理性认识与合理利用生成式AI技术提升用户体验。生成式AI这个曾被行业认为有望掀起行业换机潮、将颠覆行业发展的技术，目前也被行业以平常心看待。（证券时报）

手机业AI赛纠偏，厂商从“All in”回归用户体验

表格、图表统统拿下!阿里达摩院开源DocOwl1.5无需OCR，高效“读懂”文档!

来源：站长之家

阿里巴巴达摩院与中国人民大学联合开源了mPLUG-DocOwl1.5文档处理模型，无需OCR即可理解文档内容，在多个视觉文档理解基准测试中表现领先。该模型强调结构信息的重要性，提出“统一结构学习”来提升MLLM性能。

表格、图表统统拿下!阿里达摩院开源DocOwl1.5无需OCR，高效“读懂”文档!

Midjourney图像编辑器新功能下周上线

来源：站长之家

Midjourney的创始人David Holz宣布，一款全新的图像编辑器即将上线，该编辑器利用上传图像的深度信息生成新图片，保留原始构图和内容的同时彻底改变纹理、颜色和细节。这一创新提升了用户创作自由度，为设计师和艺术家提供强大工具。Midjourney通过AI技术不断优化图像生成质量，最新v6.1模型进一步提升图像清晰度和准确性。新图像编辑器的加入将拓宽AI在创意领域的应用，预示着Midjourney在图像编辑工具方面的重大进步。

Midjourney官网网址：【点击登录】

Midjourney图像编辑器新功能下周上线

Viggle AI再推新功能可通过录制声音让角色说话

来源：站长之家

Viggle AI推出了令人兴奋的新功能，用户可以通过录制声音让角色说话并实现口型同步。这项创新技术让用户完全控制角色的表现方式，无论是唱歌还是跳舞，都能轻松实现。Viggle应用程序以其创新性在社交媒体上引起了广泛关注，利用先进的JST-1视频3D基础模型，用户可以轻松创造和混合视频内容。

Viggle AI再推新功能可通过录制声音让角色说话

颠覆 Stable Diffusion!智源重磅发布 Emu3，图像、文本、视频全拿下!

来源：站长之家

Emu3团队发布了一套全新的多模态模型Emu3，颠覆了传统的扩散模型和组合模型架构，在生成和感知任务上取得了最先进的性能。该模型基于下一个token预测进行训练，实现了多模态任务的统一，超越了特定任务模型，甚至旗舰模型。Emu3的成功为多模态模型的未来发展指明了方向，也为实现AGI带来了新的希望。

颠覆 Stable Diffusion!智源重磅发布 Emu3，图像、文本、视频全拿下!

国内首个应用临床眼科大模型 “伏羲慧眼”发布

来源：ITSoul

国内首个应用临床眼科大模型“伏羲慧眼”在郑州发布。河南省医学科学院院长王宁利介绍，“伏羲慧眼”是一个前沿平台和人工智能应用，拥有汇聚了来自 26 个国家和地区、56 万个个体的 8 个模态共 340 万张眼部图像的全球规模最大眼科图像数据库。该大模型由王宁利教授团队联合 30 余家研究机构、百余名科研人员及医工融合工程师研发，具备筛查、诊断眼科疾病及预测疾病发展趋势的功能，且可从眼科向心血管、呼吸、代谢及肿瘤等慢病防控领域拓展，打造全方位、多层次健康管理系统精准预测全身生理指标。“伏羲慧眼”拟首批落地河南省人民医院、郑州大学第一附属医院、郑州市第二人民医院等医疗机构开展临床应用。

国内首个应用临床眼科大模型 “伏羲慧眼”发布

谷歌重组AI部门：Gemini团队并入DeepMind

来源：ITSoul

谷歌首席执行官桑达尔・皮查伊宣布将负责 Gemini AI 助理应用程序的团队转移到 DeepMind 研究实验室，以整合人工智能领域工作团队并加快人工智能发展步伐。谷歌搜索和广告部门最高领导人普拉巴卡尔・拉格哈文将转任首席技术官，尼克・福克斯接替其领导搜索、广告、地图和购物服务。谷歌在全球搜索引擎占主导地位，但在生成式 AI 工具和服务方面被认为落后于其他公司，过去六个月谷歌一直在整合人工智能团队，今年 4 月将相关团队转移到 DeepMind 部门并随后合并 DeepMind 与 Google Brain。DeepMind 2010 年在伦敦成立，2014 年被谷歌收购，近年来从研究驱动转向产品开发驱动。同时，谷歌还面临来自联邦官员的反垄断审查。

谷歌Gemini AI官网地址：【点击登录】

谷歌重组AI部门：Gemini团队并入DeepMind