字节大模型算法一面(暑期)

流程挺快的, 一面和二面的间隔大一点, 二面完几分钟就三面了

1. 自我介绍

2. 实习拷打

大部分时间都在实习上总时长感觉1小时左右, 一半的时间都在问实习

3. 特征筛选如果不只看相关系数，你会怎么做

特征筛选不能只看单变量相关性，因为很多特征单独看不强，但和其他特征组合后才有信息量。更稳的做法通常是先做业务分组和统计稳定性检查，过滤掉高缺失、高漂移、强泄漏和强共线的特征；再结合树模型增益、置换重要性、SHAP 分析和线上可用性做二次筛选。对大模型应用相关任务，还要额外关注特征是不是把未来信息泄漏进来了，比如用到了答案后的行为、后验标签或者系统回写字段。真正好的特征不是“看起来复杂”，而是对目标有增益、跨时间稳定、线上能拿到、不会污染训练。

4. 离散特征和连续特征的构造逻辑分别是什么，为什么不能机械做分桶

离散特征更关注枚举空间、组合关系和稀疏表达，连续特征更关注尺度、分布、边界和单调性。离散特征常见做法是编码、交叉、聚合、频次统计和 embedding 化；连续特征则更多涉及归一化、分位数变换、截断、winsorize、log 变换和动态分桶。不能机械分桶，是因为分桶本质上是在做信息压缩，如果分桶边界和真实业务拐点不一致，就会把信号抹平。比如时长、价格、曝光次数这类特征，经常天然呈幂律分布，均匀分桶往往最差，分位数分桶或监督式分桶通常更合理。

import numpy as np
import pandas as pd

def quantile_bucket(x, q=10):
    x = pd.Series(x)
    return pd.qcut(x.rank(method="first"), q=q, labels=False)

arr = np.array([1, 2, 2, 3, 10, 20, 30, 100, 300, 1000])
print(quantile_bucket(arr, q=4).tolist())

5. CoT 数据到底该怎么构建，为什么“答案对”不等于“链路可学”

CoT 数据构建最难的地方不在于写出一段推理过程，而在于确保这段过程既真实反映决策依赖，又不会给模型灌输伪推理模板。高质量 CoT 一般要同时满足三件事：中间步骤对最终答案真的有贡献；步骤之间不存在标签泄漏和反向解释；不同题型的推理模式可泛化而不是只会套壳。工程上常见做法是先从高置信任务中抽出可验证中间态，再结合规则、程序执行、教师模型多样采样和人工审核构造推理轨迹。只保留“答案对”的样本不够，因为很多样

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.