DeepSeek(深度求索),一家中国杭州的人工智能初创公司,于2025年1月28日发布了一款开源多模态AI模型——DeepSeek Janus-Pro。这款模型凭借其先进的算法和丰富的训练数据,在文本生成图像(文生图)领域展现了卓越的性能,不仅实现了高质量的图像生成,还具备强大的多模态理解能力。
模型功能、版本与参数
DeepSeek Janus-Pro不仅擅长文生图任务,还能对图像进行描述、识别地标景点和文字等。为了满足不同计算需求和应用场景,该模型提供了两个版本:70亿参数的Janus-Pro-7B和15亿参数的Janus-Pro-1.5B。这两个版本均开源供开发者使用,性能各有千秋。
模型特点
Janus-Pro采用了新颖的自回归框架,将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理。这种设计巧妙地解决了传统多模态模型中视觉编码与生成任务冲突的问题,显著提升了模型的灵活性和适应性。
在预训练阶段,DeepSeek为Janus-Pro生成了7200万张高质量合成图像,并在多模态理解的训练数据上增加了大约9000万个样本。这些丰富的数据使得模型在文生图的同时,也能准确识别图像中的文字、知识等,充分展现了其强大的多模态理解和生成能力。
此外,Janus-Pro还通过采用混合精度训练策略和优化训练数据比例,提高了训练效率并降低了计算成本。这使得模型在低资源环境下仍能良好运行,为更广泛的应用场景提供了可能。
本地部署指南
值得一提的是,DeepSeek Janus-Pro-7B版本已经开源,并且普通电脑可以直接安装使用!以下是详细的安装教程:
- 检查环境:首先,确保你的电脑上已经安装了Git和conda。如果没有安装,可以前往相关官网下载并安装。
- 创建虚拟环境:使用conda创建一个新的虚拟环境,指定Python版本为3.10。命令如下:复制代码conda create -n myenv python=3.10 -y
- 激活环境:激活刚刚创建的虚拟环境。命令如下:复制代码conda activate myenv
- 克隆项目:使用git克隆Janus项目的代码仓库。命令如下:复制代码git clone https://github.com/deepseek-ai/Janus.git
- 进入目录:进入克隆下来的Janus目录。命令如下:复制代码cd Janus
- 安装依赖:使用pip安装Janus的依赖包。命令如下:复制代码pip install -e .
- 安装Gradio:Gradio是一个用于构建机器学习模型UI的工具,这里我们需要安装它来运行Janus Pro的UI界面。命令如下:复制代码pip install gradio
- 运行UI:最后,运行Janus Pro的UI界面。命令如下:复制代码python demo/app_januspro.py
温馨提示
虽然现在的电脑基本都能运行Janus-Pro,但为了获得更好的性能体验,建议使用十几代的CPU或者GPU。
总之,DeepSeek Janus-Pro是一款功能强大、易于部署的多模态AI模型,无论是对于开发者、内容创作者还是企业用户来说,都是一个不可多得的工具。如果你对图像识别和图像生成感兴趣,不妨试试这款本地部署的AI模型吧!
目前由于访问人数较多导致DeepSeek服务器超负荷,大家可以从另外2个渠道去使用,不会卡:
渠道一:硅基流动(SiliconFlow):AI人工智能云服务平台
DeepSeek官网下载: 【点击登录】