工作职责 1、设计严谨和科学的针对post train model的benchmark,准确评估基础模型能力,设计模型能力优化方向,提升基础模型的social intelligence2、设计和训练奖励模型,深度参与基础模型的后训练优化,持续解决reward hacking问题和扩大强化学习训练规模3、研究Reward System,涉及但不限于LLM-as-Judge, Generative Reward Model, Agentic Reward Model, Sandbox等技术任职要求1、硕士及以上学位在读,计算机、人工智能等相关专业优先2、深入了解LLM后训练,具备LLM Benchmark设计/奖励信号设计/强化学习训练项目经验者优先3、具备良好的中英文阅读和鉴赏能力,有良好的沟通合作能力4、熟练使用python语言和pytorch框架加分项1. 在ACM/ICPC,NOI/IOI,TopCoder等编程大赛上有获奖2. 在后训练/模型评估有NeurIPS/ICML/ACL/EMNLP顶级论文发表,积极追踪大模型方向前沿进展和应用3. 具备良好的文学素养,对游戏、影视、小说等人文和娱乐内容有浓厚兴趣投递链接https://jobs.mihoyo.com/?sharePageId=121176&recommendationCode=052BT&isRecommendation=true#/campus/position/7913