京东开源国产芯片xLLM推理引擎,企业AI部署降本提效
最近京东放出个好消息,开源了基于国产芯片做的xLLM大模型推理引擎,专门帮企业解决AI应用部署的难题。不少企业用AI时总纠结,要么性能跟不上,要么成本太高,这个引擎正好能解决这些麻烦。
它的核心功能特别实用:
- 有个按请求优先级的调度器,能先处理重要任务,不耽误关键工作。
- 还有动态自适应的PD分离架构,能跟着实时负载调整处理比例,让资源不浪费。
- 多模态场景也能应对,有EPD混合分离调度器,复杂AI应用也能搞定。
技术上,它有适配硬件的多级流水线执行引擎,处理任务效率高。还加了图融合、投机推理这些优化工具,AI推理速度快了不少。另外用Mooncake做了多级KV缓存管理,数据处理更顺畅。
现在这引擎已经在京东自己的业务里用了,像AI助手、智能客服、风控这些场景,效率提了5倍多,机器成本却降了90%。京东说之后会开放更多功能,还和清华、北大这些学校合作,一起推进国产AI基础设施发展,对企业来说真是个好选择。
谷歌神经操作系统原型:按需求实时生成界面,交互更灵活
谷歌最近展示了个“神经操作系统”原型,跟咱们平时用的系统不一样,界面不是程序员提前设计好的,而是靠Gemini2.5Flash-Lite大模型,根据用户需求实时生成,用起来更灵活。
以前的系统,按钮、菜单都是固定的,点一下就是调用预设功能。但这个新系统,每次操作都会让模型生成新界面。打个比方,就像不是在固定房间里找东西,而是走在会变的街上,每步都有新景象。
为了实现这功能,谷歌把指令分成“界面构成”和“界面互动”两部分。前者定系统基本样子,后者记录操作,用JSON格式传给模型,模型再生成新界面,保证用着连贯。而且它用了流式传输技术,界面生成几乎没延迟,不用等。还能缓存生成过的界面,再访问时直接用,更稳定流畅。
现在虽然还是原型,但思路挺新颖。以后用系统不用再找半天功能,界面跟着需求变,体验能好不少。学术界也有类似研究,比如NeuralOS项目,靠预测图像生成界面,看来这可能是未来操作系统的新方向。
体验地址:Gemini网页版官网入口 (海外网站需要科学上网)
蚂蚁百灵开源Ring-flash-2.0:100亿参数仅激活6.1亿,推理性能强
蚂蚁百灵大模型团队最近开源了Ring-flash-2.0思考模型,是在Ling-flash-2.0-base基础上优化的,参数有100亿,但每次推理只激活6.1亿,既省资源又有算力。
在测试里,它表现特别好,数学竞赛、代码生成、逻辑推理这些难活都能搞定。比40亿参数的同类模型强,甚至能跟更大的开源稀疏模型、一些闭源高性能模型API比一比,实力很能打。
团队为了提升它的能力,设计了两阶段强化学习训练。先通过轻量化的Long-CoT SFT,让模型掌握多种思考方法;再用RLVR训练激发推理潜力;最后加RLHF阶段,增强通用能力。
现在模型权重、训练方案、数据配方都开源了,开发者在Hugging Face和ModelScope上就能拿到。有了这个模型,不管是做研究还是开发应用都更方便,也能推动AI领域进一步发展,期待它在更多场景发挥作用。
- 模型地址:https://huggingface.co/inclusionAI/Ring-flash-2.0
- 模型地址:https://modelscope.cn/models/inclusionAI/Ring-flash-2.0
Google Veo3视频模型:多任务能力突破,视觉AI迎来“GPT-3时刻”
Google DeepMind新研究显示,Veo3视频生成模型能力超出预期,本来是做视频生成的,测试18384个基础视频任务后,居然能处理多种任务,被看作视觉AI的重要突破。
它最厉害的是零样本学习,没专门训练过,也能应对复杂视觉任务,慢慢从单一工具变成通用助手。图像理解上,能识别边缘、颜色、形状,还能分清前景背景,解析杂乱场景。
更让人惊喜的是它懂物理规律,能判断物体浮沉、模拟光线反射,还能预测运动轨迹。比如生成水面漂浮物体的视频,水的波动、浮力效果都很逼真。图像编辑功能也全,能去背景、加文字、转艺术风格。甚至能解迷宫、为数独,有逻辑推理能力。
研究团队说这相当于视觉AI的“GPT-3时刻”,能推动自动驾驶、医疗影像等领域发展。不过它也有挑战,比如需要大量计算资源,隐私和伦理问题也得解决。但不管怎样,这都是视觉AI向通用智能迈进的重要一步。
详情查看:Google DeepMind:Veo 3或成视觉AI的“GPT-3时刻”
阿里通义7款模型进Hugging Face前十,Qwen3-Omni登顶
9月28日,全球最大AI开源社区Hugging Face更新榜单,阿里通义有7款模型进了全球前十开源模型,刚开源的全模态大模型Qwen3-Omni还拿了第一,实力很亮眼。
Qwen3-Omni有不少突破,能处理文本、图片、语音、视频四种数据,像人一样“听、说、写”。它在音频和音视频能力上拿了32个开源最佳性能,而且单模态的文本、图像性能也没掉,这在业内还是第一次做到。
以前要几个模型一起才能完成的复杂指令,现在用它一个就行,跟AI交互更方便了。以后还能装在车载、智能眼镜、手机上,用处特别广。
除了Qwen3-Omni,阿里这次还发了Qwen3-VL视觉模型、Qwen-Image-Edit-2509图像编辑模型等6款不同尺寸的模型,都进了前十。现在阿里通义一共开源了300多个模型,全球下载量超6亿次,衍生模型有17万个,在开源领域走在前面。
详情查看:阿里通义7款模型横扫Hugging Face,Qwen3-Omni凭什么登顶全球第一?
OpenAI被指未告知用户,付费用户遭遇模型降级
最近OpenAI的付费用户有点闹心,不少人发现,自己用的GPT-4、GPT-5高阶模型,悄悄被换成了gpt-5-chat-safety和gpt-5-a-t-mini这两个低算力模型,而且OpenAI没提前说。
用户反馈,只要输入涉及情感、敏感话题或者可能违规的内容,系统就自动切到这两个过滤模型,回复质量明显下降。比如以前能详细分析的内容,现在要么说得含糊,要么答非所问。
OpenAI后来解释说这是为了安全测试,但用户不买账。大家觉得,自己付了钱用高阶模型,就该享受对应的服务,这种不打招呼就降配的做法,侵犯了知情权和使用权。
这事也让更多人关注AI厂商的政策,不少用户担心,以后算法控制、模型切换这些事要是不透明,不仅影响使用体验,还会让人对品牌失去信任。毕竟付费服务,透明和稳定才是用户最在意的。
详情查看:OpenAI“暗箱”换模型,付费用户权益何去何从?
通义万相国际版Wan2.5预览版上线:视觉表达功能
阿里通义万相国际版(Wan)最近在社交平台“X”上宣布,Wan2.5预览版上线了视觉表达功能,专门优化视频生成,解决了不少老问题,用起来更顺手。
以前用视频生成工具,常遇到音频问题,要么音质差,要么和画面不同步。但Wan2.5预览版原生带了高保真同步音频,类型还多:
- 有人声,支持多扬声器,不同角色声音能分清,对话很自然;
- 还有ASMR音效,喜欢这类视频的用户能有更好的听觉体验;
- 音效和音乐也全,不管是战斗音效还是背景音乐,都能完美融入。
语言方面也没限制,支持中文、英语还有其他语言和方言。内容创作者想做面向全球的视频,不用再后期配音,直接生成多语言语音,省了不少事。
视频质量也在线,能生成10秒的1080P 24fps视频,画面清晰,播放流畅不卡顿。而且一致性高,画面风格、色彩、动作都能保持统一,看着像专业制作的。对做视频的人来说,这个预览版解决了不少痛点,期待它后续的正式版能带来更多惊喜。
体验地址:通义万相国内版
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: