苹果成功开发一种训练AI模型新方法小体量高精度

2026-03-30 3 纸飞机账号购买

近些日子，CNMO察觉到，苹果公司从事研究工作的人员，研发创造出了一种用于训练图像描述生成AI模型的全新方式，这个全新的模型能够给出更为精确详尽的描述，并且该模型的规模远远小于当下现有的同一类型的模型，这是【CNMO科技消息】所发布的内容。

有一项新研究，叫做《：-强化学习用于密集图像描述生成》。苹果研究团队，和威斯康星大学麦迪逊分校合作，构建了一个新框架，是关于密集图像描述生成模型的。在多个基准测试里，取得了领先成果。密集图像描述生成，目的是给图像里每个元素、区域生成详细描述，不是单一整体概述。这样能让人更深入理解图像场景。它可用于训练视觉语言、文本转图像模型，提升图像搜索、辅助工具等功能。

研究人员表明，当下训练密集图像叙述生成模型的人工智能方式存在显著欠缺，标注具备高质量的专家级数据花费高昂，虽说能够借助强大的视觉语言模型生成合成叙述，然而通过监督蒸馏所获取的输出多样性缺少、泛化能力薄弱，强化学习虽说能够克服这些限制，可是在开放式叙述生成里难以施行。

因此，研究团队给出了新的框架，他们于和 -4V -100K 这两个训练数据集合里，随机挑选出 50000 张图像，运用 2.5 Pro、GPT -5 等现有的视觉语言模型，为每一张图像生成多个描述选项，与此同时，让处于框架之下的待训练模型生成自身的描述，随后，利用 2.5 Pro 剖析图像、候选描述以及模型自身的输出，以此确定评判的标准，再经由 Qwen2.5 - 7B - 依据标准进行打分，从而为训练提供奖励信号。

最终，研究团队生成了三个模型，分别是-2B、-3B和-7B，其参数依次为20亿、30亿和70亿。和现有方法相比较，它们的表现颇为出色，就连参数多达720亿的模型都被其超越了。在盲排名评估里，-7B在所有模型当中排名处于首位，其幻觉惩罚是最低的，准确性则是最强的。研究还显示出，参数为30亿的小模型在某些基准测试里的表现要比更大规模的模型更优，这意味着高质量密集图像描述生成模型并非一定得有庞大的体量。

苹果成功开发一种训练AI模型新方法小体量高精度