
剪辑:LRST
【新智元导读】VQAScore是一个哄骗视觉问答模子来评估由文本辅导生成的图像质料的新设施;GenAI-Bench是一个包含复短文本辅导的基准测试集,用于挑战和提高现存的图像生成模子。两个器用不错匡助谈判东说念主员自动评估AI模子的性能,还能通过聘请最好候选图像来履行改善生成的图像。
频年来,生成式东说念主工智能(AIGC)激勉日常关怀。Midjourney、Imagen3、Stable Diffusion和Sora等模子有时说明当然谈话辅导词生成好意思不雅且传神的图像和视频,广受用户青睐。但是,这些模子在处理复杂的辅导词时仍存在不及。举例,当让Stable Diffusion或Midjourney生成「棕色的狗绕着一棵树追玄色的狗」时,模子可能会造作生成两只黑狗,或将「追赶」歪曲为两只狗在「玩耍」。有什么观点不错自动发现这些模子的不及,并进一步提高它们呢?为科罚这一问题,CMU和Meta团队息争推出了全新的评估野心VQAScore及基准GenAI-Bench,用于自动评估图像、视频和3D生成模子在复杂辅导词下的进展。ECCV’24论文相连::https://arxiv.org/abs/2404.01291CVPR’24 SynData最好论文相连:https://arxiv.org/abs/2406.13743论文代码:https://github.com/linzhiqiu/t2v_metrics模子下载:https://huggingface.co/zhiqiulin/clip-flant5-xxlVQAScore模子:https://huggingface.co/zhiqiulin/clip-flant5-xxlGenAI-Bench数据集:https://huggingface.co/datasets/BaiqiL/GenAI-Bench这些效用已在ECCV和CVPR等顶会上发表,并被谷歌DeepMind用于评估其最新的Imagen3模子,被誉为刻下文生图规模卓绝CLIP等模子的最好评估决策!布景先容频年来,文生图模子(如DALL-E 3、Imagen3、Sora等)发展赶快,但怎样准确评估这些模子的进展还是一个关节问题。尽管好多公司摄取东说念主类评估(Human Evaluation)来提高规则的准确性,但这种样式资本高、难以大规模应用,并且零落可复现性。在图片生陋习模,已有多种设施使用模子来自动评估(Automated Evaluation)生成图像的进展,其中常见的野心包括CLIPScore、FID、LPIPS、PickScore、ImageReward和HPSv2等。但是,这些野心的确宽裕好吗?现存自动化野心的不及在评估两张图片的不异性(similarity)时,传统野心LPIPS等设施依靠预试验的图像编码器,将图像特征镶嵌后再盘算距离。但是,这类设施只可评估图像与图像之间的不异度(image-to-image metric),而无法判断文本和图像之间的不异度(text-to-image metric)。为了科罚这一问题,刻下主流的文生图评估摄取了CLIPScore,通过零丁的图像编码器和文本编码器,将图像和文本镶嵌到吞并特征空间,并通过盘算特征不异度来判断它们的匹配进程。但是,CLIPScore存在严重的「bag-of-words」问题:也等于说,CLIP在处理文本时可能忽略词序,耻辱像「月亮在牛上头」和「牛在月亮上头」这么的句子。这使得模子难以准确收拢复短文本中的关节信息。为了科罚这一问题,CMU和Meta的谈判团队建议了VQAScore,摄取更广泛的生成式VQA模子(如GPT-4o)来更准确地评估文生图模子:VQAScore:一种浮浅灵验的评估野心谈判团队基于GPT-4o等用于视觉问答(VQA)任务的生成式视觉谈话模子,将图像与辅导词之间的不异度界说为模子在恢复「这个图像是否显现了[辅导词]?请恢复是或否。」时给出「是」(Yes)谜底的概率:举例,在盘算某张图像与辅导词「牛在月亮上头」之间的不异度时,VQAScore会将图像和问题「这个图像是否显现了『牛在月亮上头』?请恢复是或否。」输入模子,并复返模子聘请「是」的概率。另外,谈判团队发现,刻下主流的VQA模子(如LLaVA-1.5)使用了具备单向(auto-regressive)留心力机制的谈话模子(如Llama)。这种机制导致模子在索取图像特征时,无法提前获取辅导词的完竣信息。为了更灵验的索取视觉特征,谈判团队使用开源数据试验了一个更强的CLIP-FlanT5 VQA模子。该模子摄取了具备双向留心力机制的谈话模子FlanT5,使得图像特征索取有时说明输入的辅导词动态调理。谈判标明,这一机制在提高VQA模子对复杂辅导词的意会方面效果显赫。VQAScore比主流评估野心更浮浅高效。好多传统野心依赖无数东说念主类标注(如 ImageReward、PickScore)或独到模子(如GPT-4Vision)材干取得好进展。比较之下,VQAScore具备以下中枢上风:1. 无需东说念主类标注:VQAScore能平直哄骗现存的VQA模子取得优异进展,无需在东说念主工标注数据上进行稀薄微调。2. 分数更精确:使用GPT-4给图片打分(如在0到100之间打分)时,模子常常会邋遢给出高分(如90),而忽略图片的真本体量。比较之下,VQAScore使用概率值来判断图片与辅导词的不异度,规则愈加精确。VQAScore实验规则谈判东说念主员在无数复杂图文匹配基准(如Winoground和EqBen)以及文生图评估基准(如Pick-a-pic和TIFA160)上对VQAScore进行了测试。规则显现,VQAScore在扫数图像、视频和3D生成任务的基准上卓绝了CLIPScore等流行野心,取得了最好进展。值得留心的是,VQAScore摄取了开源模子(CLIP-FlanT5),却仍大幅卓绝了使用更强闭源模子(如PALI-17B和GPT-4)的设施(如VQ2、ViperGPT 等)。此外,VQAScore也卓绝了依赖辅导明白进行视觉推理的先进设施(如 CVPR'23最好论文Visual Programming和ViperGPT等),进一步考证了端到端评估决策的灵验性。最新的谷歌DeepMind Imagen3论说还指出,使用更广泛的VQA模子(如 Gemini)不错进一步提高VQAScore的进展,突显了其在将来生成式模子评测中的后劲。GenAI-Bench:由瞎想师集中的高难度文生图基准为了更好地评估文生图模子过火评估野心的性能,谈判团队推出了GenAI-Bench。该基准包含1600个由瞎想师集中的复杂辅导词,隐没了10种生成模子(如DALL-E 3、Midjourney、SDXL等),并配有进步80,000条东说念主工标注。GenAI-Bench比较较之前的基准有以下上风:1. 更具挑战性:谈判标明,大多数文生图/视频模子在GenAI-Bench上进展仍有不及,还有无数的提高空间。2. 幸免缺乏词汇:扫数辅导词均进程严格筛选,幸免使用假大空的词语,确保评估更具客不雅性。3. 细粒度手段分析:GenAI-Bench能提供更雅致的手段分类和分析,匡助谈判东说念主员深入了解模子在不同才略上的具体进展。GenAI-Rank:用VQAScore来提高文生图进展谈判东说念主员构建了一个新的GenAI-Rank基准,为每个辅导词使用DALL-E 3和Stable Diffusion(SD-XL)生成3到9张候选图像。谈判标明,从这些候选图像中复返VQAScore得分最高的图像,不错显赫提高文生图模子的效果。这一设施无需微调生成模子自己,因此也能优化(黑箱)独到模子,如DALL-E 3。实验规则进一步证明,VQAScore在图像排序上比其他设施(如CLIPScore、PickScore等)愈加灵验。结语VQAScore和GenAI-Bench为文生图模子提供了更精确且全面的评估,已被Imagen3、VILA-U、RankDPO等多个形势用于更好地评估和优化最新的生成式模子。谈判团队已开源代码和数据集,期待将来更多探索与进展!团队先容
团队的一作林之秋(Zhiqiu Lin)是卡内基梅隆大学的博士谈判生,由Deva Ramanan磨真金不怕火携带,专注于视觉-谈话大模子的自动评估与优化。Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等顶级会议上发表了十数篇论文,并曾荣获最好论文提名和最好短论文奖等。其谈判效用在生成模子和多模态学习规模受到了学术界和工业界的日常认同。
Pengchuan Zhang是Meta AI(原Facebook AI谈判院)的东说念主工智能谈判科学家,曾在微软谈判院担任高档谈判科学家。他的谈判规模主要团结在深度学习、盘算机视觉和多模态模子等地点,曾发表多项具有真切影响力的效用,举例AttnGAN、OSCAR、VinVL、Florence和GLIP等。他在顶级会议如CVPR、ICCV、NeurIPS等发表了无数高影响力论文,是盘算机视觉和多模态模子规模的领军东说念主物之一。
Deva Ramanan磨真金不怕火是盘算机视觉规模的海外驰名学者,现任卡内基梅隆大学磨真金不怕火。他的谈判涵盖盘算机视觉、机器学习和东说念主工智能规模,曾获取多项顶级学术荣誉,包括2009年的David Marr奖、2010年的PASCAL VOC终生建立奖、2012年的IEEE PAMI后生谈判员奖、2012年《大家科学》评比的「十位特出科学家」之一、2013年好意思国国度科学院Kavli Fellow、2018年和2024年的Longuet-Higgins奖开云体育(中国)官方网站,以及因其代表性责任(如COCO数据集)获取的Koenderink奖。此外,他的论文在CVPR、ECCV和ICCV上屡次获取最好论文提名及荣誉奖。他的谈判效用对视觉识别、自动驾驶、和东说念主机交互等应用产生了真切影响,是该规模极具影响力的科学家之一。