标签: paper/llm-vlm/rl-post-training

2026年5月

DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment

2026年5月

DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

2026年5月

EvoLM: Self-Evolving Language Models through Co-Evolved Discriminative Rubrics

2026年5月

Reward Hacking in Rubric-Based Reinforcement Learning

2026年5月

Rubric-Grounded Reinforcement Learning: Structured Judge Rewards for Generalizable Reasoning in Language Models

2026年5月

Think-with-Rubrics: From External Evaluator to Internal Reasoning Guidance

2026年5月

Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to Diversity

2026年4月

In-Place Test-Time Training

2026年4月

Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

2026年4月

Rethinking Generalization in Reasoning SFT

2026年3月

Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

2026年1月

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

2026年1月

Learning to Discover at Test Time

2025年12月

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

2025年11月

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

2025年11月

Monet: Reasoning in Latent Visual Space Beyond Images and Language

2025年9月

Reinforcement Learning with Inverse Rewards for World Model Post-training (RLIR)

2025年7月

Group Sequence Policy Optimization

2025年5月

Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning

2025年3月

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

2025年1月

LongViTU: Instruction Tuning for Long-Form Video Understanding

2023年3月

Paper Notes

探索

标签: paper/llm-vlm/rl-post-training

DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment

DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

EvoLM: Self-Evolving Language Models through Co-Evolved Discriminative Rubrics

Reward Hacking in Rubric-Based Reinforcement Learning

Rubric-Grounded Reinforcement Learning: Structured Judge Rewards for Generalizable Reasoning in Language Models

Think-with-Rubrics: From External Evaluator to Internal Reasoning Guidance

Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to Diversity

In-Place Test-Time Training

Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

Rethinking Generalization in Reasoning SFT

Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Learning to Discover at Test Time

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

Monet: Reasoning in Latent Visual Space Beyond Images and Language

Reinforcement Learning with Inverse Rewards for World Model Post-training (RLIR)

Group Sequence Policy Optimization

Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

LongViTU: Instruction Tuning for Long-Form Video Understanding

Reflexion: Language Agents with Verbal Reinforcement Learning