寻求一份LLM相关的大厂工作。目前正在准备校招,暂时不考虑实习,除非 条件非常契合。
简历详情
电子邮箱:lyl1994@mail.ustc.edu.cn
作品链接:Github (19000+ stars)
博客链接:知乎:强化学徒 (19K 关注)
RLHF,or 基于LLM的具身智能, or LLM+长文本总结和对话等落地应用,or LLM+Robot or Auto+
期望能有机会进入大厂的核心团队,或者中厂的有钱团队。
郑州大学 | 自动化 | 本科 | 2013-2017
中国科学技术大学 | 模式识别与智能系统 | 研二转博;博士四年级在读 | 2017-至今
- 基于Spinning UP封装的深度强化学习算法:DQN、DDPG、TD3、SAC、PPO、PER、HER等。
- 深度强化学习算法链接:DRLib (438 stars)
- 论文综合稀疏奖励全局收敛但效率低下以及密集奖励收敛快但容易局部最优的特点,提出dense2sparse解决方案,兼顾二者的优势,同时提高探索效率和最终性能。
- 《Balance Between Efficient and Effective Learning: Dense2Sparse Reward Shaping for Robot Manipulation with Environment Uncertainty 》(共一,机器人会议 2022 AIM,Oral Presentation)
- 23年改进版《D2SR: Transferring Dense Reward Function to Sparse by Network Resetting》,有效解决多奖励函数切换的稳定性问题,性能大幅提升,大幅降低奖励函数设计要求(一作,机器人EI会议RCAR, Oral,非常有意思的工作)
- 基于Mujoco物理引擎的乒乓球击球平台,实现与真机类似的击球效果。将击球任务建模成单步强化,利用HER的重标记获得完美样本,用于自我引导探索,实现对数据的高效利用。真机验证结果显示200个回合可以实现92%的落点成功率。
- 《SIRL: Self-Imitation Reinforcement Learning for Single-step Hitting Tasks》(一作,CAA,A类会议,ARM)
- 首次提出自我引导探索的强化学习框架。面对奖励反馈稀疏的复杂任务,该算法可以让智能体从失败中提取有效信息,积极探索,不断积累优势,最终实现高效学习。在一到三物体的各类操作任务中都取得极高探索效率,真机实验从零开始训练仅需250回合即可达100%成功率,是本人博士期间最有学术价值的工作。
- 在此基础上的另外一个侧重于策略优化的工作正在撰写,可以使得样本效率再次提高60%以上。
- 代码已开源:RHER; 论文已在ArXiv公布:Relay Hindsight Experience Replay(一作,NeuroComputing, 二区Top,已接收)
- 证书:英语四六级、心理咨询师三级
- 项目经历:
- 开源ChatPaper,获得16.0K star,GitHub连续三天热榜第五,月活60W,注册用户7W。
- 开源ChatOpenReview项目:1. 利用langchain实现基于数据库的审稿回复辅助;2. 基于deepspeed做模型SFT;3. 借助搜索引擎,实现全局文献库的审稿。
- 基于Spinning UP封装的深度强化学习算法:DQN、DDPG、TD3、SAC、PPO、PER、HER等(DRLib 438 star)。
- 基于强化学习的竞技型乒乓球机器人运动控制系统研发(横向,148w,本人负责 仿真系统搭建和强化算法)
- LLM+Robot技能库的研发ing,已实现技能库的开发和初步验证。
- ChatSensitiveWords,利用敏感词库+LLM实现弹性敏感词检测。兼顾效果和速度。
- 熟练掌握经典深度强化学习算法,拥有丰富的机器人仿真和真实系统搭建经验。
- 品行良好,为人坦率靠谱。工程能力强,编程基础扎实,但没有系统做过算法题,可结合GPT4快速开发。
- 擅长将人类学习经验应用于人工智能领域,科研能力优秀,拥有丰富的团队合作经验,热爱开源、技术分享和教学。
- 希望能结合大模型的文本能力,做高等教育的AI辅助,或者LLM+RL的微调,或者LLM的其他应用。