Is Your Video Language Model a Reliable Judge?

Authors: Ming Liu, Wensheng Zhang Affiliations: Iowa State University Year: 2025 Code: 未公开

1. Motivation (研究动机)

1.1 背景

随着视频语言模型 (VLM) 在视频理解任务中的广泛应用，如何可靠、可扩展地评估 VLM 性能成为关键问题。传统人工评估存在一致性差、成本高、不可扩展的问题，因此学界开始探索用 VLM 评估 VLM (VLM-as-Judge) 的自动化方法。

1.2 核心问题

本文提出三个研究问题：

当前 VLM 作为评估者是否可靠？ 弱模型能否评估强模型？
集体智慧 (Collective Thought) 能否提升评估可靠性？ 聚合多个 VLM 的评估是否比单一模型更好？
集体智慧方法的局限性是什么？ 如何改进？

1.3 核心发现

弱 VLM 系统性地高估候选模型表现：Video-LLaVA 几乎给所有候选模型打出接近 4.0 的分数
集体智慧并不一定有效：混合可靠与不可靠评委的集体评估，结果反而比单独使用 GPT-4o 更差
仅提升理解能力不足以提升评估可靠性：微调 Video-LLaVA 后，评分分布仍偏高，Kappa 值仅略微改善

Figure 1 解读：对比单一 VLM Judge 与多 LLM Agent-Debate（参考答案引导）的评估结果。对同一视频问答对，VLM Judge 给出评分 5（高度乐观），而基于参考答案的 LLM Agent Debate 给出评分 1（严格评估）。这种显著不一致性揭示了 VLM 作为评估者的不可靠性问题，是本文的核心动机。

2. Idea (核心思想)

本文的核心思想是：不要默认任何 VLM Judge 都可靠，而是显式建模评委质量，并比较单评委、集体评委和参考基准之间的一致性。

2.1 研究框架概览

作者将评估流程拆成三个阶段：

先让多个 VLM candidates 对视频问答任务作答
再让多个 VLM judges 独立评分，同时用 LLM Agent-Debate 构造参考评审
最后尝试用 Collective Thought 或 Mixture of Judges 聚合多个评审

2.2 核心假设

如果 VLM 真能当评委，那么它的评分应与更强的参考评审保持一致
如果某些评委更可靠，那么应当能通过选择或加权提升整体一致性
若聚合后性能下降，说明简单集成不能自动消除弱评委噪声

3. Method (方法)

3.1 整体框架：三阶段评估流程

本文提出一个三阶段多模型评估框架：

┌─────────────────────────────────────────────────────────────────┐
│  Phase 1: VLM Candidates 生成回答                                │
│  (v, t) → M_j → r_{i,j}                                        │
│  数据集: CVRR-ES (2400 QA pairs, 11 visual dimensions)           │
├─────────────────────────────────────────────────────────────────┤
│  Phase 2: Individual VLM Judge 独立评审                           │
│  M^J = {M^J_1, ..., M^J_q} → R = {R_1, R_2, ..., R_q}         │
│  同时: LLM Agent-Debate 生成参考评审 (Ground Truth)               │
├─────────────────────────────────────────────────────────────────┤
│  Phase 3: Collective Thought 集体评估                            │
│  A = M^J_a(r_{i,j}, R_1, R_2, ..., R_q)                        │
│  高级模型 (GPT-4o) 综合所有评审给出最终评分                         │
│  + Reliability Selection Gate (可选 Mixture of Judges)           │
└─────────────────────────────────────────────────────────────────┘

Figure 2 解读：展示了完整的多阶段评估流程。左侧为 VLM Candidate 生成回答，中间多个 VLM Judge 各自独立给出评分和可靠性分数 (Reliability Score)，经过 Reliability Selection Gate 筛选后，右侧高级 VLM Judge 综合所有通过筛选的评审给出最终评分。这是本文提出的集体智慧评估范式的核心架构。

3.2 评估指标：Weighted Cohen’s Kappa

用于衡量 VLM Judge 与 LLM Agent-Debate 之间的评分一致性：

κ = 1 - \frac{\sum _{α, β} w _{α β} O _{α β}}{\sum _{α, β} w _{α β} E _{α β}}

其中：

$O_{α β}$ : Judge 1 给出评分 $α$ 、Judge 2 给出评分 $β$ 的观测频率
$E_{α β}$ : 独立评分假设下的期望频率
$w_{α β}$ : 不一致权重，采用二次加权方案：

w_{α β} = 1 - (\frac{α - β}{k - 1})^{2}

其中 $k = 5$ （评分范围 1-5）。

Kappa 值解读标准：

Kappa 范围	含义
< 0	无一致性
0 - 0.20	轻微一致
0.21 - 0.40	一般一致
0.41 - 0.60	中等一致
0.61 - 0.80	显著一致
0.81 - 1.00	几乎完全一致

3.3 Mixture of Judges 策略

基于每个 visual dimension 的 Kappa 值动态选择可靠评委：

阈值法：选择 Kappa 超过阈值 $θ$ 的模型子集：

M^{J^{'}} = {M_{e}^{J} ∣ κ_{d, e} \geq θ}

Top-K 法：选择每个维度上 Kappa 最高的 K 个模型：

M^{J^{'}} = {M_{e}^{J} ∣ κ_{d, e} is among the top k scores for visual dimension V_{d}}

3.4 LLM Agent-Debate (参考基准)

作为”准 Ground Truth”的生成方式：

使用 GPT-3.5 和 GPT-4o（文本输入模式，无视觉输入）
同时提供 VLM 候选回答和 CVRR-ES 参考答案
多轮讨论和辩论后，由另一 LLM agent 汇总形成共识评分

3.5 伪代码

# ============================================================
# VLM-as-Judge Evaluation Framework
# ============================================================
 
def phase1_generate_responses(dataset, candidates):
    """Phase 1: VLM Candidates 生成回答"""
    responses = {}
    for (video, question) in dataset:  # D = {(v1,t1), ..., (vn,tn)}
        for model in candidates:  # M = {M1, ..., Mm}
            responses[(video, question, model)] = model.generate(video, question)
    return responses  # r_{i,j}
 
def phase2_individual_review(responses, judges, agent_debate):
    """Phase 2: Individual VLM Judge 评审 + Agent-Debate 基准"""
    reviews = {}
    debate_reviews = {}
    for (video, question, candidate), response in responses.items():
        # VLM Judge 评审
        for judge in judges:  # M^J = {M^J_1, ..., M^J_q}
            reviews[(video, question, candidate, judge)] = judge.review(
                video, question, response, rating_scale=(1, 5)
            )
        # LLM Agent-Debate 评审 (参考引导)
        reference = dataset.get_reference(video, question)
        debate_reviews[(video, question, candidate)] = agent_debate.debate(
            question, response, reference  # 多轮讨论达成共识
        )
    return reviews, debate_reviews
 
def compute_weighted_kappa(judge_ratings, debate_ratings, k=5):
    """计算 Weighted Cohen's Kappa"""
    # 构建混淆矩阵 O_{alpha,beta}
    O = confusion_matrix(judge_ratings, debate_ratings)
    # 计算期望频率 E_{alpha,beta}
    E = expected_frequencies(judge_ratings, debate_ratings)
    # 二次加权
    w = [[1 - ((a - b) / (k - 1))**2 for b in range(k)] for a in range(k)]
    kappa = 1 - sum(w[a][b] * O[a][b]) / sum(w[a][b] * E[a][b])
    return kappa
 
def phase3_collective_thought(responses, reviews, advanced_judge):
    """Phase 3: 集体评估"""
    final_ratings = {}
    for (video, question, candidate), response in responses.items():
        all_reviews = [reviews[(video, question, candidate, j)] for j in judges]
        # 高级模型综合所有评审
        final_ratings[(video, question, candidate)] = advanced_judge.aggregate(
            video, question, response, all_reviews
        )
    return final_ratings
 
def mixture_of_judges(reviews, debate_reviews, visual_dimensions, theta):
    """Mixture of Judges: 基于可靠性动态选择"""
    selected = {}
    for dim in visual_dimensions:
        for judge in judges:
            kappa = compute_weighted_kappa(
                reviews[dim][judge], debate_reviews[dim]
            )
            if kappa >= theta:  # M^{J'} = {M^J_e | kappa_{d,e} >= theta}
                selected.setdefault(dim, []).append(judge)
    return selected

3.6 代码映射表

本文未公开代码。以下为方法到潜在实现的映射：

论文组件	潜在实现	说明
CVRR-ES 数据集	CVRR-ES (Khattak et al.)	2400 QA pairs, 11 visual dimensions, 217 videos
Video-LLaVA	Video-LLaVA	开源候选/评委模型
LLaMA-VID	LLaMA-VID	开源候选/评委模型
InternVL2	InternVL2	开源评委模型
GPT-4o / GPT-4o mini	OpenAI API	闭源，最终评委和高级模型
GPT-3.5	OpenAI API	Agent-Debate 中的辩论 agent
mPLUG-Owl-Video	mPLUG-Owl	开源候选模型
Video-ChatGPT	Video-ChatGPT	开源候选模型
Weighted Cohen’s Kappa	`sklearn.metrics.cohen_kappa_score(weights='quadratic')`	核心评估指标
VideoChatGPT 数据集	HuggingFace	扩展验证数据集

4. Experimental Setup (实验设置)

4.1 模型配置

角色	模型
Candidates (被评估)	Video-LLaVA, LLaMA-VID, GPT-4o mini, Video-ChatGPT, mPLUG-Owl-Video
Judges (VLM)	Video-LLaVA, LLaMA-VID, GPT-4o mini, InternVL2, GPT-4o
Judges (LLM)	GPT-3.5 (Agent-Debate), GPT-4o (text-only)
Final Judge	GPT-4o

数据集：CVRR-ES — 2,400 个高质量 QA 对，来自 217 个视频，平均时长 22.3 秒，覆盖 11 个 visual dimensions（Multi Actions, Fine Action, Partial Actions, Time Order, Non-exist(E), Non-exist(NE), Cont.&Obj., Unusual Activities, Social Context, Emotional Context, Visual Context）。

4.2 扩展验证数据集

作者还在 VideoChatGPT 数据集（1,000 样本）上做了验证，用于检验结论是否能迁移到其他视频问答数据分布。

5. Experimental Results (实验结果)

5.1 个体 VLM Judge 评分分析

Figure 3 解读：雷达图展示了不同 Judge 对不同 Candidate 在 11 个 visual dimensions 上的评分。关键发现：(1) Video-LLaVA 和 LLaMA-VID 作为 Judge 时几乎在所有维度给出接近 4.0 的高分，存在明显的”评分膨胀”；(2) GPT-4o 和 Agent-Debate 的评分模式最为相似，均倾向给出更严格、更有区分度的评分；(3) Non-exist(E) 和 Non-exist(NE) 维度在所有 Judge 下一致偏低，说明候选模型普遍难以处理不存在实体的推理。

5.2 VLM Judge 与 Agent-Debate 的一致性

Figure 4 解读：左图为各 Judge 的评分分布统计——Video-LLaVA 和 LLaMA-VID 的评分集中在 4 分，GPT-4o 和 Agent-Debate 分布更均匀。右图为各 VLM Judge 在不同 visual dimensions 上与 Agent-Debate 的 Weighted Cohen’s Kappa 值。GPT-4o 在所有维度上一致性最高（平均 Kappa 约 44.42%），Video-LLaVA 和 LLaMA-VID 的 Kappa 值接近 0 甚至为负，表明它们作为 Judge 几乎不可靠。

关键数值 (Table 5 - Agreement Scores)：

Judge	Average Kappa (%)
Video-LLaVA	1.35
LLaMA-VID	3.70
GPT-4o mini	14.50
InternVL2	10.69
GPT-4o	33.11 - 55.18 (跨维度), 平均 44.42

GPT-4o 在 Social Context 维度上达到最高一致性 60.38%，在 Visual Context 维度达 55.18%。

5.3 集体智慧评估结果

Figure 5 解读：三张热力图分别展示 GPT-4o 单独作为 Judge（左）、Collective Thought Judge（中）、Mixture Judge（右）与 Agent-Debate 的 Weighted Cohen’s Kappa。颜色越亮表示一致性越高。关键发现：GPT-4o 单独评估（左图）整体颜色最亮，而集体评估（中图）和 Mixture 评估（右图）反而颜色变暗。这直观证明了混入不可靠 Judge 会拉低整体评估质量。

核心数值对比 (Table 6 & 7)：

方法	平均 Kappa (%)
GPT-4o 单独	30.65 (across all candidates avg)
Collective Thought (全部 Judge)	21.61
Mixture of Judges	33.13

Collective Thought 的维度级 Kappa 范围：2.72% ~ 42.53%
Mixture of Judges 的维度级 Kappa 范围：2.72% ~ 60.70%
即便 Mixture 方法挑选了最可靠的 Judge，整体仍未超过 GPT-4o 单独评估

5.4 Weak-to-Strong 评估问题

Table 5 揭示了显著的弱评强问题：

Video-LLaVA 评估 GPT-4o mini 时：Kappa 仅 5.34%（Fine Action 维度甚至 -8.05%）
LLaMA-VID 评估 GPT-4o mini 时：Kappa 10.62%，部分维度达 -17.09%
弱模型缺乏理解强模型回答的能力，导致评估结果不可靠

5.5 微调消融实验

Figure 7 解读：左图对比了 Video-LLaVA 微调前后的评分分布——微调后评分分布依然偏向高分（集中在 4 分），与 GPT-4o 和 Agent-Debate 的均匀分布差距明显。右图对比微调前后的 Kappa 值——微调后 Kappa 仅有微小提升，远未达到 GPT-4o 的水平。结论：仅提升模型理解能力不足以使其成为可靠评估者，还需要专门的评估技能和批判性分析能力。

5.6 VideoChatGPT 数据集扩展验证

在 VideoChatGPT 数据集（1,000 样本）上的验证实验：

Judge	Average Kappa (%)
Video-LLaVA	1.72
InternVL2	25.66
GPT-4o	44.42

结论与 CVRR-ES 一致：弱 VLM 系统性高估，GPT-4o 最可靠。

5.7 结果总结与启示

GPT-4o 是目前唯一展现显著评估可靠性的 VLM（Kappa ~44%），但仍远未达到”几乎完全一致”的水平
简单的集体投票/聚合策略不适用于 VLM 评估，因为不可靠模型引入的噪声会淹没可靠模型的信号
Weak-to-Strong 评估问题：弱模型无法可靠评估强模型，这与 weak-to-strong generalization 的研究一致
未来方向：需要开发能感知个体模型可靠性的加权聚合方法，以及迭代式多轮讨论的集体思考范式

5.8 对 RL for Visual Generation 的潜在意义

如果用 VLM 作为 reward model 为视频生成提供 RL 反馈，其评估不可靠性会直接导致reward hacking
需要谨慎选择评估模型，GPT-4o 级别模型可能是当前唯一可行的选择
Agent-Debate 方式虽更可靠但需要参考答案，在生成式任务中获取参考答案本身就是挑战

Paper Notes

探索

Is Your Video Language Model a Reliable Judge?

Is Your Video Language Model a Reliable Judge?

1. Motivation (研究动机)

1.1 背景

1.2 核心问题

1.3 核心发现

2. Idea (核心思想)

2.1 研究框架概览

2.2 核心假设

3. Method (方法)

3.1 整体框架：三阶段评估流程

3.2 评估指标：Weighted Cohen’s Kappa

3.3 Mixture of Judges 策略

3.4 LLM Agent-Debate (参考基准)

3.5 伪代码

3.6 代码映射表

4. Experimental Setup (实验设置)

4.1 模型配置

4.2 扩展验证数据集

5. Experimental Results (实验结果)

5.1 个体 VLM Judge 评分分析

5.2 VLM Judge 与 Agent-Debate 的一致性

5.3 集体智慧评估结果

5.4 Weak-to-Strong 评估问题

5.5 微调消融实验

5.6 VideoChatGPT 数据集扩展验证

5.7 结果总结与启示

5.8 对 RL for Visual Generation 的潜在意义

目录