AITOP100平台获悉,8月4日,腾讯混元团队把四款“瘦身”后的大模型直接扔进了GitHub和Hugging Face,0.5B / 1.8B / 4B / 7B 四个尺寸任选,最轻量版0.5B甚至能在手机 CPU 上跑起来。如果你刚好有一台带独显的笔记本,或者一台骁龙8系手机,现在就能把它们装进兜里,不用再眼巴巴等云端排大队。
为什么这四款模型值得普通开发者撸一把?
1. 消费级显卡就能跑
官方实测,一张RTX3060笔记本GPU就能流畅推理7B版本;1.8B在Arm手机上离线跑,耗电极低。
2. 微调成本低
垂直场景不用堆A100了,拿几百条业务数据就能LoRA微调,几十分钟搞定。
3. 快慢双模式
简单任务切“快思考”,毫秒级响应;复杂问题切“慢思考”,多步推理,准确率直接拉满。
真正香的两点:Agent+长文
Agent能力
从写Excel宏、做旅行攻略,到调用搜索、地图、支付工具,模型能像人一样拆任务、写计划、自己纠错,实测成功率比同尺寸开源模型高出一截。
256k超长上下文
一口气读40万汉字不喘气,整本《三体》扔进去,它都能记住谁跟谁结了梁子,还能帮你续写后续剧情。
已经在腾讯自家业务里“上钟”
- 腾讯会议 AI 小助手:一次看完2小时会议记录,重点、TODO全提炼;
- 微信读书 AI 问书:整本书一次塞进模型,问哪段答哪段,不用翻页;
- 手机管家垃圾短信拦截:本地0.5B模型毫秒级判断,隐私数据不上云;
- 车载智能座舱:双模型协作,主驾副驾各聊各的,互不抢算力。
怎么上手?三分钟搞定
- 打开Hugging Face搜 “Tencent-Hunyuan”,选对应尺寸;
- 一条pip命令装依赖,或者直接拉Docker镜像;
- 有显卡用 vLLM / TensorRT-LLM,没显卡也能用llama.cpp量化到 2bit 跑手机端。
官网地址:腾讯混元大模型官网入口
【Github地址】
Hunyuan-0.5B:GitHub - Tencent-Hunyuan/Hunyuan-0.5B
Hunyuan-1.8B:https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
Hunyuan-4B:https://github.com/Tencent-Hunyuan/Hunyuan-4B
Hunyuan-7B:https://github.com/Tencent-Hunyuan/Hunyuan-7B
【HuggingFace地址】
Hunyuan-0.5B:https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
Hunyuan-1.8B:https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
Hunyuan-4B:https://huggingface.co/tencent/Hunyuan-4B-Instruct
Hunyuan-7B:https://huggingface.co/tencent/Hunyuan-7B-Instruct
如果你正愁大模型太贵、太卡、太难调,不妨把这四个小钢炮下载下来试试水。会用的老板已经拿去省预算了,不会用的还在等 API降价。 工具给到手,剩下就看你怎么玩出新花样。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: