kaixindelele

寻求一份LLM相关的大厂工作。目前正在准备校招，暂时不考虑实习，除非条件非常契合。

简历详情

Yongle Luo

电子邮箱：lyl1994@mail.ustc.edu.cn
作品链接：Github (19000+ stars)
博客链接：知乎：强化学徒 (19K 关注)

RLHF，or 基于LLM的具身智能, or LLM+长文本总结和对话等落地应用，or LLM+Robot or Auto+

期望能有机会进入大厂的核心团队，或者中厂的有钱团队。

郑州大学 | 自动化 | 本科 | 2013-2017

中国科学技术大学 | 模式识别与智能系统 | 研二转博；博士四年级在读 | 2017-至今

论文综合稀疏奖励全局收敛但效率低下以及密集奖励收敛快但容易局部最优的特点，提出dense2sparse解决方案，兼顾二者的优势，同时提高探索效率和最终性能。
《Balance Between Efficient and Effective Learning: Dense2Sparse Reward Shaping for Robot Manipulation with Environment Uncertainty 》（共一，机器人会议 2022 AIM，Oral Presentation）
23年改进版《D2SR: Transferring Dense Reward Function to Sparse by Network Resetting》，有效解决多奖励函数切换的稳定性问题，性能大幅提升，大幅降低奖励函数设计要求（一作，机器人EI会议RCAR, Oral，非常有意思的工作）

基于Mujoco物理引擎的乒乓球击球平台，实现与真机类似的击球效果。将击球任务建模成单步强化，利用HER的重标记获得完美样本，用于自我引导探索，实现对数据的高效利用。真机验证结果显示200个回合可以实现92%的落点成功率。
《SIRL: Self-Imitation Reinforcement Learning for Single-step Hitting Tasks》（一作，CAA，A类会议，ARM）

首次提出自我引导探索的强化学习框架。面对奖励反馈稀疏的复杂任务，该算法可以让智能体从失败中提取有效信息，积极探索，不断积累优势，最终实现高效学习。在一到三物体的各类操作任务中都取得极高探索效率，真机实验从零开始训练仅需250回合即可达100%成功率，是本人博士期间最有学术价值的工作。
在此基础上的另外一个侧重于策略优化的工作正在撰写，可以使得样本效率再次提高60%以上。
代码已开源：RHER; 论文已在ArXiv公布：Relay Hindsight Experience Replay（一作，NeuroComputing, 二区Top，已接收）