2025年04月24日 23:01 星期四

浙大上海AI Lab发布全球首个创造力评测基准:GPT-4.5创造力不及GPT-4O,真实场景下的创造力较量揭晓

点击查看👉爱狐AI:国内外AI大模型(AI对话,绘画,视频,音乐)

探索多模态创造力:GPT-4.5与视觉创造力基准的对比分析

随着GPT-4.5在自然语言生成方面的能力不断提升,其在创意表达领域的潜力也备受关注。然而,当我们将其应用至多模态任务的实际应用场景时,发现其表现可能不如预期理想。近日,浙江大学与上海人工智能实验室等团队共同发布了全球首个多模态创造力评测基准,为我们揭示了多模态大模型在复杂场景中的创造力表现。

首先,我们需要明确多模态创造力的定义。在人工智能的“智力三元论”中,创造性智能(Creative Intelligence)始终是最具挑战性的领域。它涉及在多样化背景下产生创新且适合的解决方案的能力,这是多模态大模型在现实应用中展现创造力的关键所在。

现有多模态大模型的评测基准,如MMBench、MMMU等,往往专注于分析性或功能性任务,而忽略了多模态AI在日常生活中常见的“创意类任务”。这些任务对于人类来说相对简单,但对于现有的多模态大模型来说常常是“高难度挑战”。这正是浙江大学团队推出的全球首个多模态创造力评测基准——Creation-MMBench所要解决的问题。

在深入探讨Creation-MMBench之前,我们需要理解为何视觉创造智能如此重要。在人工智能的智力框架中,视觉智能是理解和感知世界的重要组成部分。在创造性智能中,视觉内容的理解与情境适应能力尤为关键。与其他常用的多模态评测基准相比,Creation-MMBench的问题设计更为全面和复杂,许多问题的长度超过500个词元,帮助模型捕捉丰富的创意背景。

Creation-MMBench的核心在于真实场景的多模态整合。它涵盖了四大任务类别、51项细粒度任务,并通过765个高难度测试案例,为多模态大模型的“视觉创意智能”提供全面评估。任务类别包括文学创作、日常功能性写作、专业功能性写作以及多模态理解与创作。这些任务要求模型具备视觉理解、情境适应及创意文本生成的多重能力,这是现有基准难以评估的核心能力。

为了确保评估的客观性和一致性,团队使用GPT-4O作为评判模型,并采用双重评估体系。他们选择使用多模态大模型作为评判模型,同时应用两个不同指标进行评估。这包括视觉事实性评分(VFS)和创意奖励分(Reward)。视觉事实性评分确保模型不编造事实,创意奖励分则评估模型能否结合视觉内容生成创新文本。

为验证评判模型的可靠性,团队还招募志愿者对13%的样本进行人工评估。结果显示,GPT-4O展现出更高的人类偏好一致性,也证明了双向评估的重要性。这表明传统客观指标可能不足以完全捕捉模型在复杂现实场景中的创造能力,而Creation-MMBench填补了这一重要空白。

值得注意的是,GPT-4.5在语言生成能力上的提升并未带来其在多模态创造力上的显著进步。在与全球首个多模态创造力评测基准Creation-MMBench的对比实验中,GPT-4.5在某些任务上的表现甚至逊于GPT-4O。这促使我们重新审视GPT-4.5的真正潜力以及多模态创造力评测的重要性。

总而言之,Creation-MMBench作为一个创新的评测基准,旨在评估多模态大模型在真实场景中的创造能力。该基准包含765个实例,涵盖51个详细任务,为多模态大模型的创造力提供了全方位的评估。尽管GPT-4.5在语言生成能力上有所提升,但在真实场景中的多模态创造力较量中,我们仍需依赖像Creation-MMBench这样的评测基准来揭示其真实能力。

文章总结

通过研究Creation-MMBench对多模态大模型创造力的评估,我们发现,尽管GPT-4.5在语言生成方面取得了进步,但在多模态创造力上仍有待加强。Creation-MMBench为我们提供了洞察这些模型在复杂场景中表现的重要工具,强调了在创新与应用之间平衡的重要性。未来,随着技术的不断进步,多模态创造力的评估将变得更加精细和准确。

© 2025 爱狐网络 - 浙大上海AI Lab发布全球首个创造力评测基准:GPT-4.5创造力不及GPT-4O,真实场景下的创造力较量揭晓

本文链接:https://www.aihu168.com/archives/482.html

除非特别注明,本站文章均为原创,转载请注明出处!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注