Zheyang Qin

About Me

I'm a researcher at Skild AI, where I focus on building scalable multi-modal AI for robotics. Previously, I completed my master's degree in Electrical and Computer Engineering from Carnegie Mellon University, where I was advised by Prof. Deepak Pathak, and worked closely with Prof. Fernando De la Torre.

My research interests lie in multi-modal models, generative modeling, and reasoning.

Publications

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

ICML, 2026

Mihir Prabhudesai^*†, Aryan Satpathy^*†, Yangmin Li^†, Zheyang Qin^†, Nikash Bhardwaj, Amir Zadeh, Chuan Li, Katerina Fragkiadaki, Deepak Pathak

^* Project co-leads · ^† Core contributors

[webpage] [paper] [code]

Sim2Reason trains LLMs inside virtual worlds governed by real physics laws for stronger, transferable physical reasoning, with zero-shot gains on the International Physics Olympiad.

Iterative Refinement Improves Compositional Image Generation

arXiv, 2026

Shantanu Jaiswal, Mihir Prabhudesai, Nikash Bhardwaj, Zheyang Qin, Amir Zadeh, Chuan Li, Katerina Fragkiadaki, Deepak Pathak

[webpage] [arXiv]

A test-time iterative refinement strategy that uses a VLM feedback critic and image editor in loop to improve compositional text-to-image generation, significantly outperforming compute-matched parallel sampling across various models.

Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision

ICCV, 2025

Xiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre

[webpage]

AGenDA bridges the domain gap in aerial vehicle detection by synthesizing target-domain training data with Stable Diffusion and auto-labeling via cross-attention maps.

Video Diffusion Alignment via Reward Gradients

In Submission, 2024

Mihir Prabhudesai^*, Zheyang Qin^*, Russell Mendonca^*, Katerina Fragkiadaki, Deepak Pathak

[webpage] [arXiv]

VADER is a framework for efficiently fine-tuning video diffusion models using reward gradients, enabling alignment with task-specific objectives.