Xianwei Zhuang | Peking University

About Me

I am a second year graduate student majoring in computer science at Peking University, mainly focusing on foundational large model, including the pre/post-training and RLHF of large vision models (VLM).

Research Interests

Multimodal Large Language Model: Unified Understanding and Generation, SFT, RLHF, Reasoning [QwenVLo, VARGPT]
Large Language Model: Long Context [Doubao]

Experience

Educational Experience

Peking University: Pursuing a master’s degree starting from 2023
Zhejiang University: Obtained a Bachelor’s degree from 2019 to 2023

Intern

Qwen Team, Foundation Model, Tongyi: Core contributor in the 0-to-1 development of Qwen VLo, participating in data synthesis, coding, pre/post-training, and RL.
ByteDance: Focus on studying long context of LLM and long-term memory of Doubao

Some honors

Received the National Scholarship at Peking University in 2024
Received Zhejiang Province Outstanding Graduate and Zhejiang University First Class Scholarship at Zhejiang University

News

[Jun. 2025] Our QwenVLo preview version can available for you to experience at QwenVLo.
[Apr. 2025] Open source training code and models of VARGPT-v1.1 at github and Huggingface. Total GitHub stars exceed ~600.
[Feb. 2025] Our works VASparse is accepted for CVPR 2025. Work is continuously being updated at github .
[Jan. 2025] Our code, model and paper about unified understanding and generation VARGPT-v1 has been released.
[Jan. 2025] Our work on CoT Distillation initially completed in Feb. 2024 is accepted for ICLR 2025.
[Dec. 2024] Our paper and code about Hallucination Mitigation for MLLMs VASparse has been released.

Publications: VLM Pre-/Post-training, RLHF, Unified Modeling

Working in Progress

VARGPT-RL: Improve Visual Autoregressive Large Unified Model via Unified Group Relative Policy Optimization

Xianwei Zhuang*, et al.

Code Project Page BibTex Unified GRPO for Unified Model VARGPT

Preprint

VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

Xianwei Zhuang*, Yuxin Xie*, Yufan Deng*, Liming Liang, Jinghan Ru, Yuguo Yin, Yuexian Zou,

Preprint arXiv (Preprint), 2025.

PDF Code Project Page BibTex Iterative SFT and DPO for VARGPT

Preprint

VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model

Xianwei Zhuang*, Yuxin Xie*, Yufan Deng*, Liming Liang, Jinghan Ru, Yuguo Yin, Yuexian Zou,

Preprint arXiv (Preprint), 2025.

PDF Code Project Page BibTex Pre- and Post-training Visual Autoregressive Unified VLM

CVPR

VASparse: Towards Efficient Visual Hallucination Mitigation for Large Vision-Language Model via Visual-Aware Sparsification

Xianwei Zhuang, Zhihong Zhu, Yuxin Xie, Liming Liang, Yuexian Zou

Computer Vision and Pattern Recognition Conference (CVPR), 2025.

PDF Code BibTex CVPR 2025 Accept

EMNLP

Game on Tree: Visual Hallucination Mitigation via Coarse-to-Fine View Tree and Game Theory

Xianwei Zhuang, Zhihong Zhu, Zhanpeng Chen, Yuxin Xie, Liming Liang, Yuexian Zou

Empirical Methods in Natural Language Processing (EMNLP), 2024.

PDF Code EMNLP 2024 Accept

Publications: VL, CoT Distillation, NLU

ICLR

UniCoTT: A Unified Framework for Structural Chain-of-Thought Distillation

Xianwei Zhuang*, Zhihong Zhu*, Zhichang Wang*, Xuxin Cheng, Yuexian Zou

International Conference on Learning Representations (ICLR), 2025.

PDF Code ICLR 2025 Accept

ECCV

KDProR: A Knowledge-Decoupling Probabilistic Framework for Video-Text Retrieval

Xianwei Zhuang*, Hongxiang Li*, Xuxin Cheng, Zhihong Zhu, Yuxin Xie, Yuexian Zou

European Conference on Computer Vision (ECCV), 2024.

PDF Code ECCV 2024 Accept

AAAI

Towards Explainable Joint Models via Information Theory for Multiple Intent Detection and Slot Filling

Xianwei Zhuang, Xuxin Cheng, Yuexian Zou

Annual AAAI Conference on Artificial Intelligence (AAAI), 2024.

PDF BibTex AAAI 2024 Accept

ACL

PCAD: Towards ASR-Robust Spoken Language Understanding via Prototype Calibration and Asymmetric Decoupling

Xianwei Zhuang, Xuxin Cheng, Liming Liang, Yuxin Xie, Zhichang Wang, Zhiqi Huang, Yuexian Zou

Annual Meeting of the Association for Computational Linguistics (ACL), 2024.

PDF BibTex ACL 2024 Accept

ACM MM

Towards Multimodal-augmented Pre-trained Language Models via Self-balanced Expectation-Maximization Iteration

Xianwei Zhuang, Xuxin Cheng, Zhihong Zhu, Zhanpeng Chen, Hongxiang Li, Yuexian Zou

ACM International Conference on Multimedia (ACM MM), 2024.

PDF BibTex ACM MM 2024 Accept

Pattern Recognition

SemiGMMPoint: Semi-supervised Point Cloud Segmentation based on Gaussian Mixture Models

Xianwei Zhuang, Hualiang Wang, Xiaoxuan He, Siming Fu, Haoji Hu

Journal of Pattern Recognition (Pattern Recognition), 2024.

PDF Code BibTex The work was done from 2022 to 2023.