工作职责 职位描述作为一名核心的数据算法实习生,你将直接参与构建和优化我们核心大语言模型的预训练数据。你将从数据源头开始,通过科学的数据工程与算法策略,深刻影响模型的底层能力、知识广度和思想深度。岗位职责:数据工程与基建: 负责大模型预训练数据的全流程构建,包括多源数据发现与评估、自动化清洗与去重、结构化与内容安全处理;数据策略与实验: 设计并执行数据配比、质量筛选、混合合成策略的对比实验,以科学方法驱动模型性能的持续提升;前沿数据构建: 洞察模型能力的瓶颈,主动构想并构建能突破当前模型“天花板”的新型训练数据(如高质量对话、复杂推理链、代码-文本对等),探索数据创新的前沿;数据效果分析: 分析模型在不同数据上的训练动态与性能表现,建立“数据-模型能力”的量化洞察,为数据决策提供依据。任职要求任职要求:计算机科学、人工智能或相关专业硕士及以上在读;熟练掌握 Python 及主流数据处理框架(如 Pandas, PySpark),具备扎实的工程实现能力;深入理解大语言模型的预训练数据构建全流程(从数据源到模型输入),熟悉主流模型架构(如 Transformer)和基础训练范式;对语言模型和对话系统充满热情,热衷于探索其背后的工作原理与应用场景。加分项加分项(满足一项或多项):数据审美与洞察力: 对数据质量有敏锐的“直觉”和高标准的审美,能够从海量数据中识别出真正具有价值的“黄金”样本;实战经验: 具备大模型相关数据构建、训练或评估的实习/项目经验,或有实际参与对话/指令微调项目;学术能力: 在ACL, EMNLP, NeurIPS, ICLR等顶级会议发表过与NLP/LLM相关的论文;工程能力: 熟悉大规模数据处理流程与工具(如 Docker, Git, 分布式计算),代码风格清晰规范。投递链接https://jobs.mihoyo.com/?sharePageId=121176&recommendationCode=052BT&isRecommendation=true#/campus/position/8079