Publications - Xiufeng Song

2025

Viki-r: Coordinating embodied multi-agent cooperation via reinforcement learning

Li Kang*, Xiufeng Song*, Heng Zhou*, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin^# (* equal contribution, ^# corresponding author)

Neural Information Processing Systems (NeurIPS) Benchmark 2025

[Paper] [Code] [Page]

Viki-r: Coordinating embodied multi-agent cooperation via reinforcement learning

Li Kang*, Xiufeng Song*, Heng Zhou*, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin^# (* equal contribution, ^# corresponding author)

Neural Information Processing Systems (NeurIPS) Benchmark 2025

[Paper] [Code] [Page]

Robofactory: Exploring embodied agent collaboration with compositional constraints

Yiran Qin*, Li Kang*, Xiufeng Song*, Zhenfei Yin, Xiaohong Liu, Xihui Liu, Ruimao Zhang, Lei Bai^# (* equal contribution, ^# corresponding author)

International Conference on Computer Vision (ICCV) 2025 Best Paper Award at CVPR 2025 MEIS Workshop

[Paper] [Code] [Page]

Robofactory: Exploring embodied agent collaboration with compositional constraints

Yiran Qin*, Li Kang*, Xiufeng Song*, Zhenfei Yin, Xiaohong Liu, Xihui Liu, Ruimao Zhang, Lei Bai^# (* equal contribution, ^# corresponding author)

International Conference on Computer Vision (ICCV) 2025 Best Paper Award at CVPR 2025 MEIS Workshop

[Paper] [Code] [Page]

2024

UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines

Chen Tang, Xinzhu Ma, Encheng Su, Xiufeng Song, Xiaohong Liu, Wei-Hong Li, Lei Bai, Wanli Ouyang, Xiangyu Yue^# (^# corresponding author)

Computer Vision and Pattern Recognition Conference (CVPR) 2024

[Paper] [Code]

UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines

Chen Tang, Xinzhu Ma, Encheng Su, Xiufeng Song, Xiaohong Liu, Wei-Hong Li, Lei Bai, Wanli Ouyang, Xiangyu Yue^# (^# corresponding author)

Computer Vision and Pattern Recognition Conference (CVPR) 2024

[Paper] [Code]

Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector

Xiao Guo, Xiufeng Song, Yue Zhang, Xiaohong Liu, Xiaoming Liu^# (^# corresponding author)

Computer Vision and Pattern Recognition Conference (CVPR) 2024 Oral

[Paper] [Code]

Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector

Xiao Guo, Xiufeng Song, Yue Zhang, Xiaohong Liu, Xiaoming Liu^# (^# corresponding author)

Computer Vision and Pattern Recognition Conference (CVPR) 2024 Oral

[Paper] [Code]

On learning multi-modal forgery representation for diffusion generated video detection

Xiufeng Song, Xiao Guo, Jiache Zhang, Qirui Li, Lei Bai, Xiaoming Liu, Guangtao Zhai, Xiaohong Liu^# (^# corresponding author)

Neural Information Processing Systems (NeurIPS) 2024

[Paper] [Code]

On learning multi-modal forgery representation for diffusion generated video detection

Xiufeng Song, Xiao Guo, Jiache Zhang, Qirui Li, Lei Bai, Xiaoming Liu, Guangtao Zhai, Xiaohong Liu^# (^# corresponding author)

Neural Information Processing Systems (NeurIPS) 2024

[Paper] [Code]