算法求职简历该怎么写大模型微调

结合最近辅助修改的简历及项目，老师总结了部分大模型微调简历的踩雷点。
🙅‍♂️错误示范：在 x任务中，获取 xxx 条数据，通过规则 or 脚本清洗出 x 条数据，然后微调 y 大模型，在业务上提升 x 个点。
✍🏻原因:大模型微调的平台是现成的，基模是现成的，体现不出核心能力。
✅应该怎么写？
首先介绍业务背景：
业务是一个销售对话业务，机器人是销售，代替真人，直接面对用户。我们会给模型设定任务，任务是 prompt 。
步骤1️⃣．提取训练数据
问题：
1.真人通话每通电话任务是未知的，我们
训练数据是任务＋通话的 pair 对。
2.真人通话很乱，与客户的对话是各种交
叉的，导致 asr 后并不是一人一轮。
解决方案：
1.首先通过大模型 prompt 对该通电话提取任务，得到任务＋ pair 对。需要用到 cot + reflection ＋多 Ilm 一致性+ debating 的模式。
2.使用大模型根据以上任务和真人对话，
让大模型编写出通话内容。提问，为什么要编写而不是直接用？
步骤2️⃣．制定训练数据集
问题：
1、正常的对话内容，前面几句和后面几句基本上一致的。都是问候和拜拜，但是也有一些差异。
2、因为都是相似场景，虽然任务不同，但是很多场景语义很相似。
解决方案：
1、基于轮次的权重采样：通过轮次设定权重进行 weighting sample 。解决问候和拜拜的高占比问题。
2、基于语义的采样：使用 bert 对对话内容进行 embedding ，然后使用层次聚类通过调节阈值聚类出相似语义的类。对一个类里的样本进行随机采样，提问，为什么要对重复语义的数据进行下采样？
3、基于客户类型和产品的采样，因为很多产品是热品，导致对话内容有偏，用户类型一样，需按照类型调整整体比例采样。提问，为什么要这么采样？
步骤3️⃣．制定训练数据集
我们直接把输出当作 target 进行训练。使用的 lora 训练，但是 lora alpha 设定成为4倍的时候达到了比较好的效果，经验值不同任务不一样，提问，在各种情况下要怎么调？
步骤4️⃣.dpo训练
问题：v1版本训练时，很多输出内容是对的，但是输出的语气不太像真人，机器人味还是很严重。
解决方案：由于训练本身是有 ground truth 的，因此使用v1训练的模型，预测训练集，使用大模型对比两者语气不符合训练集的拿出来，使用训练集的 ground truth 和模型的预测数据作为 dpo 训练对，对v1版本模型重新训练。
📳这里老师只是简要进行概括解答，具体情况和详细解答可以咨询辅导，如果想了解项目辅导，提升面试能力，欢迎后台联系。
#算法# #简历中的项目经历要怎么写# #算法岗面试# #互联网大厂招聘#