关于我

我是字节跳动 BandAI的研究员,专注于前沿人工智能技术的研究。我致力于通过深度学习和自主智能体开发的创新研究来推进AI系统的能力边界。我曾获得阿里星华为天才少年等人才计划的认可。

我的研究兴趣主要集中在深度研究智能体强化学习工具使用自我进化等领域。我特别关注开发能够自主学习、适应和进化其能力的智能系统,以解决复杂的现实世界问题。

我已在多个顶级会议发表论文,包括AAAI、EMNLP、KDD等,并贡献了多个开源项目,如TableBank、DocBank、LayoutLM和TrOCR,这些项目在学术界产生了重要影响。特别值得一提的是,LayoutLM荣获2024年国际基础科学大会前沿科学奖,我的研究工作在谷歌学术上获得了2288次引用。目前,我正在研究能够进行自主研究和持续自我改进的下一代AI系统。

🔬 我的研究兴趣

  • 🤖 深度研究 (Deep Research)
  • 🎯 智能体强化学习 (Agentic RL)
  • 🛠️ 工具使用 (Tool Use)
  • 🌱 自我进化 (Self Evolution)

🔥 新闻

  • 2025.09: 🌱 发布SamplingEvolve:将测试时扩展从独立采样轨迹转变为经验驱动的轨迹间演化,通过持续轨迹优化在GAIA数据集上达到91.36%准确率。
  • 2025.08: 📊 发布ReportBench:首个面向深度研究智能体的学术调研报告评测基准,基于arXiv论文自动构建并具备全面的事实核查机制。

📖 教育经历

  • 2019.09 - 2024.06, 计算机科学与技术博士, 北京航空航天大学,与微软亚洲研究院 (MSRA) 联合培养
  • 2015.09 - 2019.06, 计算机科学与技术学士, 北京航空航天大学

💼 工作经历

  • 2025.04 - 至今, 研究员, 字节跳动 BandAI,北京
    • 研究方向:深度研究、智能体强化学习、工具使用、自我进化
    • 致力于具备自主研究和自我改进能力的下一代AI系统
    • 开发用于复杂问题解决的高级智能体框架
  • 2024.03 - 2025.04, 研究员, 字节跳动 Seed,北京
    • 研究方向:用户偏好优化、指令遵循、模型对齐
    • 用户飞轮 - 语义信号优化:开发方法从用户对话模式中提取偏好信号,通过用户在不满意初始回复时修改提示或添加批评的行为,构造RM训练数据以改进模型与用户偏好的对齐
    • 用户飞轮 - 行为信号优化:构建PointRM二分类模型识别用户复制行为,用于从等分回复中创建偏好对,在人工评估中实现3.5%的提升
    • 指令遵循优化:设计跨多语言和用户需求的可验证原子指令,结合嵌套逻辑关系(与、或、否、IF)进行指令组合,在公开基准测试中实现约10个点的提升,人工评估GSB中获得10%优势
  • 2023.02 - 2024.02, 科研实习生, 阿里巴巴达摩院对话智能,北京
    • 研究方向:工具增强大语言模型、人类对齐
    • 开发API-Bank基准和PRO(偏好排序优化)方法
    • 为大语言模型工具调用能力评估标准做出贡献
  • 2018.07 - 2023.02, 联合培养博士, 微软亚洲研究院自然语言计算组,北京
    • 导师:崔磊博士
    • 研究方向:文档智能、多模态预训练模型
    • 作为联合培养博士项目的一部分进行长期实习

🎖 荣誉奖项

  • 2024 国际基础科学大会前沿科学奖(LayoutLM项目)- 由丘成桐先生发起,北京市人民政府、科学技术部、中国科学技术协会及世界华人数学家联盟主办的国际基础科学领域学术盛会颁发
  • 2024 阿里星 & 华为天才少年

📝 发表论文

大语言模型智能体

文档智能