近些日子,CNMO察觉到,苹果公司从事研究工作的人员,研发创造出了一种用于训练图像描述生成AI模型的全新方式,这个全新的模型能够给出更为精确详尽的描述,并且该模型的规模远远小于当下现有的同一类型的模型,这是【CNMO科技消息】所发布的内容。
有一项新研究,叫做《:-强化学习用于密集图像描述生成》。苹果研究团队,和威斯康星大学麦迪逊分校合作,构建了一个新框架,是关于密集图像描述生成模型的。在多个基准测试里,取得了领先成果。密集图像描述生成,目的是给图像里每个元素、区域生成详细描述,不是单一整体概述。这样能让人更深入理解图像场景。它可用于训练视觉语言、文本转图像模型,提升图像搜索、辅助工具等功能。
研究人员表明,当下训练密集图像叙述生成模型的人工智能方式存在显著欠缺,标注具备高质量的专家级数据花费高昂,虽说能够借助强大的视觉语言模型生成合成叙述,然而通过监督蒸馏所获取的输出多样性缺少、泛化能力薄弱,强化学习虽说能够克服这些限制,可是在开放式叙述生成里难以施行。
因此,研究团队给出了新的框架,他们于和 -4V -100K 这两个训练数据集合里,随机挑选出 50000 张图像,运用 2.5 Pro、GPT -5 等现有的视觉语言模型,为每一张图像生成多个描述选项,与此同时,让处于框架之下的待训练模型生成自身的描述 ,随后,利用 2.5 Pro 剖析图像、候选描述以及模型自身的输出,以此确定评判的标准,再经由 Qwen2.5 - 7B - 依据标准进行打分,从而为训练提供奖励信号。
最终,研究团队生成了三个模型,分别是-2B、-3B和-7B,其参数依次为20亿、30亿和70亿。和现有方法相比较,它们的表现颇为出色,就连参数多达720亿的模型都被其超越了。在盲排名评估里,-7B在所有模型当中排名处于首位,其幻觉惩罚是最低的,准确性则是最强的。研究还显示出,参数为30亿的小模型在某些基准测试里的表现要比更大规模的模型更优,这意味着高质量密集图像描述生成模型并非一定得有庞大的体量。