360 开源新升级!7B参数模型360Zhinao3-7B实力大增
嘿,家人们!360集团又有大动作啦!他们开源升级了自家的7B参数模型 360Zhinao3-7B,还在Github 开源社区上线了,而且能免费商用呢!
这模型可不简单,数学、科学领域表现超棒,通用能力也杠杠的,在端侧应用上优势明显。这次升级,就增量训练了700B的高质量 token,效果提升显著,成本比前代 360Zhinao2-7B的10.1T token 低多了,推理成本还没增加。
数据筛选上,360智脑团队下了大功夫,离线训练多种数据筛选模型,给不同数据分档打分,数据质量一下子就上去了。还调整了数据配比,数学、代码、指令数据占比增加,网页和书籍占比降低,模型的指令遵循和推理能力更强了。
长文本预训练阶段也升级了,最大窗口长度从 4k 提到 32k,ROPE 的 base 从 1w 改成 100w,超长文本和长代码比例增加,长文本处理能力更上一层楼。
用开源工具评估,这模型在 10B 尺寸附近竞争力超强。微调阶段用了蒸馏、强化学习等策略,性能又提升了。长思维链训练四个阶段后,数学和科学数据上跟从 0 训练的 7B 推理模型差不多,通用多轮对话、角色扮演及复杂指令遵循上表现更出色。
360智脑团队说开源是为了推动 AI 技术发展,给开发者提供好工具。这模型适用范围广,端侧应用前景一片光明,咱就等着看它大放异彩吧!
字节跳动携手高校,UniTok视觉分词技术大革新
宝子们,字节跳动又搞出黑科技啦!他们联合香港大学和华中科技大学,推出了全新的视觉分词器UniTok。
这UniTok可不一般,视觉生成和理解任务都能搞定,还解决了传统分词器细节捕捉和语义理解的矛盾。它用了多码本量化技术,把图像特征分割成小块,用独立子码本量化,视觉token表示能力大大提升。在 ImageNet 数据集上,零样本分类准确率达到 78.6%,图像重建质量才 0.38,比现有分词器强多了。
UniTok核心功能超厉害,能统一视觉表示,还能高质量重建图像。把图像编码成离散视觉 token,既能生成图像,又能回答图像相关问题。还结合对比学习和重建损失,让视觉 token 和文本描述对齐,视觉理解能力更强。
技术原理上,多码本量化让视觉 token 词汇量指数级增长,多头注意力模块保留了语义信息,特征表达能力提升。训练过程目标统一,保证图像细节准确重建,优化生成和理解任务。
UniTok 在视觉领域表现出色,还给多模态大语言模型发展提供了支持,能把视觉 token 映射到多模态语言模型 token 空间,推动视觉与语言统一处理。
未来,UniTok 应用场景可多了,能当多模态模型视觉输入模块,提升图文信息处理能力;根据文本生成细节丰富的图像,助力创意设计;在电商平台跨模态检索与推荐,提高用户体验。咱就期待它在各个领域大展身手吧!
小红书NoteLLM框架上线,笔记推荐更精准
家人们,小红书又有新花样啦!他们推出了NoteLLM多模态大型语言模型框架,笔记推荐更精准了。
这NoteLLM可厉害啦,不仅能理解文本信息,还能处理图像,语义理解能力强,笔记推荐准确性和相关性大大提高。它的核心技术是生成笔记压缩嵌入和自动生成标签,用对比学习和指令微调技术解析用户行为数据,给每个笔记生成合适标签和类别,优化了用户体验,增强了用户和内容的互动。
升级版NoteLLM - 2更牛,引入了多模态输入,能同时处理文本和视觉信息。用多模态上下文学习和晚期融合机制,增强对视觉信息的理解,笔记推荐更全面准确。
在实际应用中,NoteLLM表现超棒。个性化笔记推荐、冷启动笔记推荐、标签和类别生成等场景都能搞定,能快速帮用户发现感兴趣的内容,新发布的笔记也能通过内容相似性迅速曝光,打破了传统推荐系统的局限。
NoteLLM不只是个笔记推荐工具,还是个集成了多种先进技术的智能系统,正推动小红书平台内容推荐服务向更高水平发展。以后在小红书上找笔记,肯定更方便、更精准,咱就好好享受这智能推荐带来的便利吧!
IBM 发布 Granite 4.0 Tiny Preview,小巧强大超实用
嘿,科技迷们注意啦!IBM 发布了 Granite4.0Tiny Preview,这是 Granite4.0 系列语言模型里最小款的预览版本,性能超强,内存需求还小。
这 Granite4.0Tiny 在 FP8 精度下,消费级硬件上就能运行多个长上下文(128K)的并发任务,适合价格低于 350 美元的 GPU。虽然目前只部分训练,处理过 2.5 万亿个训练标记,但性能接近 IBM Granite3.32B Instruct,内存需求还降低了约 72%。等后续训练完,性能估计能和 Granite3.38B Instruct 差不多。
它采用了全新的混合 Mamba - 2/Transformer 架构,结合了 Mamba 的速度和效率以及 Transformer 的自注意力精度。是个细粒度的混合专家模型,总参数 70 亿,推理时只激活 10 亿,这架构设计是 IBM 研究和 Mamba 原始创造者合作的成果,整体性能提升了。
Granite4.0 的亮点是理论上能处理无限长序列,因为用了不使用位置编码(NoPE)的设计,避免了传统模型处理长上下文的性能限制。测试显示,处理 128K 个标记表现良好,以后还会验证更长上下文的性能。
这 Granite4.0Tiny 内存效率高,性能好,是企业应用的理想选择。IBM 计划未来几个月完善模型,期待在 IBM Think2025 大会上分享更多信息。这模型肯定能给开发者和企业用户带来更多可能,咱就等着瞧吧!
ChatGPT界面更新,滑块式图标超便捷
宝子们,ChatGPT客户端界面更新啦!这次更新虽然细微,但超实用。
2025 年 5 月 6 日,ChatGPT客户端把图像生成、搜索、深度研究等多种工具选项整合成了一个滑块式图标,目的是提升用户操作效率和界面简洁性。现在,iOS 和 Android 平台的ChatGPT应用都上线了这个新界面,受到了用户广泛关注。
这个滑块式图标可太方便了,把原本分散的工具选项都集中起来,用户点击图标就能展开包含所有工具的菜单,快速切换功能。和之前的独立图标设计比,新界面减少了视觉干扰,操作更流畅。这设计灵感估计是用户想要更简洁的 UI,对经常用多种工具的高级用户特别友好。
这次更新还有不少细节优化。移动端 UI 整合工具时,保留了文件上传等核心功能的直接入口,用户体验不受影响。社交媒体上,用户对滑块式图标的响应速度和直观性评价很高,小屏幕设备上表现尤其出色。OpenAI在更新说明里还说,这次改动是为未来功能扩展预留空间,估计更多创新工具要来了。
现在 AI 客户端竞争激烈,Google Gemini、Anthropic Claude 等竞品也都在优化 UI。ChatGPT这次更新巩固了它在多模态交互领域的领先地位,迎合了用户对一站式 AI 助手的需求。官方数据显示,ChatGPT 图像生成功能升级后,已生成超过 7 亿张图像,可见用户对多功能界面的需求有多强烈。以后 ChatGPT 可能还会整合语音、视频等模态,咱就期待它变成全能 AI 平台吧!
腾讯元宝文生图升级,两大模型助力创作
家人们,腾讯元宝又有新升级啦!这次是文生图功能全面升级,支持混元和DeepSeek两大模型生成图片。
现在,用户在腾讯元宝上,只需简单一句话描述,就能生成高质量、复杂且富有想象力的图像。这升级结合了腾讯混元最新的文生图模型,在元宝全端都上线了。用户给出指令后,元宝会自动扩展和细化提示词,生成和描述高度一致的图像。不管是童年漫画风格的少年望向天空,还是莫奈风格的粉紫色睡莲与半透明荷叶相映成趣,都能轻松实现。
这次升级好处可多了,不仅提升了生成图像的质量和多样性,还降低了使用门槛。就算不懂专业提示词的用户,也能轻松生成自己心中的图像。用户还能自由选择混元或者 DeepSeek模型,快速生成符合描述的图片。
以后在腾讯元宝上创作图像就更方便啦,不管你是专业创作者,还是普通用户,都能借助这两个强大的模型,实现自己的创意。想象一下,以后用简单的文字描述,就能得到精美的图像,多酷啊!咱就好好利用这个功能,发挥自己的想象力,创造出更多精彩的作品吧!
NBC用AI复刻经典解说,为NBA赛事添彩
嘿,篮球迷们!NBC又有新创意啦!他们要在即将到来的 NBA赛事中使用已故体育解说员Jim Fagan的AI生成声音。
Fagan在2017年去世了,但他的声音在1990至2002年期间,给NBC的NBA报道增添了不少魅力。他曾在 “NBA on NBC” 的宣传片里,为迈克尔・乔丹、沙奎尔・奥尼尔和哈基姆・奥拉朱旺等篮球巨星激情旁白。这次,NBC得到了Fagan家族的许可,用人工智能技术重现他的声音。
NBC体育总裁 Rick Cordella 说,Fagan的声音完美捕捉了重量级比赛和明星运动员的分量,和 Jim的家人合作重现他的声音,是乐趣也是弘扬他的遗产。Fagan 的 AI 声音会补充其他艺术家的传统配音工作,用在选定的片头序列、节目开场及宣传片中。
其实,NBC去年在 2024 年巴黎奥运会上就尝试过AI配音技术,推出工具让观众能用著名运动解说员 Al Michaels 的 AI 生成声音制作个性化回顾。
NBC这创新举措,不仅想重现 Fagan的经典解说风格,还为未来赛事报道开辟了新可能。以后体育解说会因科技变得更丰富多彩,观众能更好地回味那些激动人心的瞬间。咱就期待在NBA赛事上听到 Fagan 那熟悉又充满激情的声音吧!