视频知道的 CoT 推理才气熟女论坛,怎么评?
中科大等团队建议了评估基准—— VCR-Bench,内部包含七个零丁评估维度的任务框架,每个维度针对性地覆按模子的不同才气(如时空推理、因果推断等)。为确保评估的全面性和可靠性,每个维度齐联想了 100 余条高质地样本。
成果发现现时多模态模子在视频复杂推理任务上表现宽敞欠安——
最优模子 o1 仅取得 62.8 的 CoT 得分和 56.7% 的准确率,大多数模子两项筹画均低于 40 分,且闭源模子优于开源模子,大模子优于小模子。
具体来看。
多模态视频知道
在多模态连系边界,视频数据因其丰富的语义信息和全面的场景细节,为构建复杂的想维链(Chain-of-Thought,CoT)推理任务提供了理想载体。
然而,现时多模态连系社区面对一个重要挑战:
阑珊系统化的评估标准来考据模子在视频知道中的 CoT 推理才气,这严重制约了视频复杂推理任务的连系进展。
针对这一连系空缺,中科大等的连系团队立异性地建议了首个面向视频 CoT 推理经由的多模态评估基准(Benchmark)。
该基准通过建造标准化的评估体系,权贵普及了视频理罢职务中推理才气的考据效度。
此项使命自愿布以来取得了学术界的高度柔软,
在 HuggingFace 的 4 月 11 日 Daily Papers 评比中荣登榜单第二位,展现了其遑急的学术价值和期骗远景。
连系者觉得,现时视频知道边界的评测基准主要存在两个重要性局限:
率先,现存标准宽敞仅柔软模子输出的最终成果,而冷落了对推理经由的评估。这种评估形势可能导致"假阳性"情景——即便模子在知道或推理重要存在装假,仍可能通过预计或碰巧取得正确的最终谜底。
其次,现存基准阑珊对模子推理才气的多维度解构,无法精确识别模子在复杂推理任务中的才气瓶颈(如视觉感知不足与逻辑推理弱势的分裂)。
这两个局限性严重制约了对视频知道模子的确推理才气的科学评估。而针对这些问题所建议的 VCR-Bench,则好像很好的杀青视频 CoT 经由评估,填补现存不足。
△图 1 成果评估的局限性首个面向视频 CoT 推理的 Benchmark
具体而言,连系团队率先构建了包含七个零丁评估维度的任务框架,每个维度针对性地覆按模子的不同才气(如时空推理、因果推断等)。
为确保评估的全面性和可靠性,每个维度全心联想了 100 余条高质地样本,最终形成包含 859 个精选视频和 1034 组问答对的大限制数据集。
这种多维度的评估体系好像对模子的玄虚推理才气进行全面会诊,不仅隐敝了视频知道的各个重要重要,还能有用揭示模子在不同才气维度上的强弱项。
△图 2 不同维度样例
其次,关于数据网络的每一条样本,连系团队不仅提供了标准问答对,还零碎标注了经过东谈主工考据的谛视 CoT 推理法子算作参考标准。
在评估经由中,率先对被测模子生成的推理推行进行结构化解析,将其瓦解为碎裂的推理法子。随后,基于事前界说的才气维度框架,包括视觉感知(perception)和逻辑推理(reasoning)两大类别,对这些法子进行分类标注。为保险评估的客不雅性,接受 GPT-4o 算作自动评分器,通过比对模子生成的推理法子与东谈主工标注的黄金标准,分别策画法子类别的调回率(Recall)和精确率(Precision),最终以 F1 分数算作模子 CoT 得分。这一评估有筹画既保证了评分的可评释性,又能有用反应模子在不同推理维度上的的确表现。
终末,接受 GPT4o 从模子的输出推行中索要出最终成果,并于正确成果进行匹配,从而得到模子在 VCR-Bench 上推理的成果准确性。
△图 3VCR-Bench 的评估经由
连系者在 VCR-Bench 上进行了大批实验,考据了其评估体系的有用性,并得到了多条富饶启发酷爱的论断:
现时多模态模子在视频复杂推理任务上表现宽敞欠安,最优模子 o1 仅取得 62.8 的 CoT 得分和 56.7% 的准确率,大多数模子两项筹画均低于 40 分,且闭源模子优于开源模子,大模子优于小模子。
通过对感知才气和推理才气的对比分析发现,大多数测试模子的视觉感知得分齐低于其推理才气得分,相等是在性能较差的模子中,这种差距表现得更为权贵。这一章程明晰地标明,视觉感知才气的不足如故成为制约多模态模子性能普及的紧要成分。
△图 4 不同模子在 VCR-Bench 中的 CoT 得分
模子在时空定位(TSG)维度表现最差,多数模子无法正确回答有关问题,表涌现处治时空变化任务的严重不足。
△图 5 不同模子在 VCR-Bench 上的准确率成果
△图 6TSG 任务样例
模子的 CoT 得分和准确率呈现高度正有关(r=0.89),证据正确有用的 CoT 的推理法子好像匡助模子更好的回答对问题。
部分模子如 LLaVA 系列天然能达到尚可的准确率,但其 CoT 得分却昭彰偏低,久了分析发现这些模子存在领导慑服不充分的问题,其输出推行络续过于节略,阑珊必要的推理法子;比较之下,Qwen2.5-VL 等表现较好的模子好像严格慑服领导条件,生成愈加完好、精致的推理经由,因而取得更高的 CoT 评分。
模子在中等长度视频上表现最好,短视频和长视频相对较差。长视频因推行复杂度高带来知道挑战;而短视频关于东谈主类标注员而言也较容易知道,好像标注出更有深度的问题,此外一些额外的维度(TSG)以短视频为主,亦然酿成短视频性能欠安的原因。这一情景突显了模子对不同期长视频的合乎才气仍需普及。
△图 7 更多实验成果展示。
(左侧:模子在不同期长视频上的准确率;右上:模子在不同实验建立下的准确率;右下:模子 CoT 得分与准确率的有关性统计)
Paper: https://arxiv.org/abs/2504.07956
Project Page: https://vlm-reasoning.github.io/VCR-Bench/
Dataset: https://huggingface.co/datasets/VLM-Reasoning/VCR-Bench
Code: https://github.com/zhishuifeiqian/VCR-Bench
一键三连「点赞」「转发」「提神心」
接待在驳斥区留住你的见识!
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿推行
附上论文 / 技俩主页和谐,以及联系形势哦
咱们会(尽量)实时回答你
� � 点亮星标 � �
AV网站科技前沿进展逐日见熟女论坛