腾讯混元团队创新突破:'Follow-Your-Pose-v2'开启多人视频生成新纪元
腾讯混元团队的最新突破——"Follow-Your-Pose-v2"图生视频模型,标志着人工智能在视频生成领域的又一项重大进展。这一模型不仅能够处理单人视频生成,更实现了多人视频动作的同步生成,大幅减少了推理耗时,同时保持了高质量的输出。
模型的泛化能力同样令人印象深刻,无论是日常生活照片还是随意抓拍,无论人物的年龄、服装或背景如何复杂多变,"Follow-Your-Pose-v2"均能生成逼真且高质量的视频内容。这一能力得益于模型中集成的"光流指导器"、"推理图指导器"和"深度图指导器",这些组件共同作用,提升了模型对动作和空间关系的精准把握,有效解决了多角色动画和身体遮挡的难题。
为了全面评估"Follow-Your-Pose-v2"的性能,研究团队创建了Multi-Character基准,并在公共数据集上进行了测试。测试结果表明,该模型在多个评估指标上均优于现有最先进技术35%以上,证明了其在多角色视频生成方面的显著优势。
随着AI技术的不断进步,"Follow-Your-Pose-v2"模型在电影制作、增强现实、游戏开发和广告等行业的应用前景广阔,预示着AI在多媒体内容创作中将扮演越来越重要的角色。腾讯混元团队的这一创新,不仅推动了AI技术的发展,也为未来的创意产业注入了新的动力。
论文地址:https://arxiv.org/abs/2406.03035
抱抱脸混元DiT:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT?continueFlag=7b93f8f875055859b0712c994d253b9f
AI大模型高考作文评分战:阿里通义领衔,百度文心、腾讯混元紧随其后
在2024年的高考中,人工智能不仅成为作文题目的焦点,还亲自参与了作文的写作与评分。DoNews组织了一场独特的实验,邀请了国内五家主流的大模型——百度文心、阿里通义、腾讯混元、讯飞星火和字节豆包,各自撰写了一篇作文,并进行了自评与互评。
结果显示,阿里通义大模型的作文获得了最高平均分53.8分,遥遥领先于其他模型。而文心和混元大模型紧随其后,平均分均为51分。星火和豆包大模型的平均分则不到50分,其中豆包大模型的平均分最低,为49.4分。
评分过程中,各模型展现出了不同的评价风格。百度文心大模型给出了相对较高的分数,对所有作文的评价都比较接近,显示出了一种“老好人”的形象。而阿里通义大模型的评价则更为犀利,对其他作文的深度和广度提出了批评。
腾讯混元大模型认为除了通义外,其他作文在文采上有所不足。讯飞星火大模型则最为挑剔,对细节要求严格,即使得分最高的通义作文也指出了需要修正的语法错误。字节豆包大模型则对其他作文给出了正面评价,但也指出了自己作文在文采上还有提升空间。
这场实验不仅展示了大模型在写作和评价作文方面的能力,也反映了它们在理解和生成自然语言方面的成熟度。随着技术的不断进步,我们可以预见,未来大模型将在更多领域展现出其强大的潜力。
奥特曼28亿投资帝国揭秘:OpenAI CEO的低薪与高风险投资策略
在近期的科技投资领域,Sam Altman(昵称奥特曼)以其独特的投资策略和庞大的投资帝国成为焦点。作为OpenAI的CEO,尽管Altman不持有公司股份,年薪仅为6.5万美元,远低于行业标准,但他通过早期对Stripe等公司的精准投资,已经积累了约28亿美元的个人财富。华尔街日报深入剖析了奥特曼的投资帝国,揭示了他如何通过家族办公室管理和扩展其投资版图,其投资领域从社交媒体到前沿科技,无所不包。
奥特曼的投资风格大胆而果断,他经常在公司推介完成之前就做出投资决策,这种风格为他赢得了硅谷最积极个人投资者之一的声誉。然而,随着他投资的公司与OpenAI的业务关系日益紧密,潜在的利益冲突问题也逐渐浮现。例如,他所支持的Helion Energy正在与OpenAI谈判合作,而他个人在Reddit的大量股份在OpenAI宣布与其合作后价值激增。
尽管奥特曼的投资行为受到了一些质疑,但他本人以及OpenAI的董事会主席Bret Taylor都坚称,他对投资保持透明,并遵守相关政策。这一事件引发了对科技行业内部利益冲突管理的广泛讨论,同时也展示了个人品牌与公司治理之间微妙而复杂的关系。随着科技行业的快速发展,如何平衡创始人个人利益与公司长远发展,将是投资者和监管者需要持续关注的问题。