字节 大模型算法 一面(暑期)

流程挺快的, 一面和二面的间隔大一点, 二面完几分钟就三面了

1. 自我介绍

2. 实习拷打

大部分时间都在实习上 总时长感觉1小时左右, 一半的时间都在问实习

3. 特征筛选如果不只看相关系数,你会怎么做

特征筛选不能只看单变量相关性,因为很多特征单独看不强,但和其他特征组合后才有信息量。更稳的做法通常是先做业务分组和统计稳定性检查,过滤掉高缺失、高漂移、强泄漏和强共线的特征;再结合树模型增益、置换重要性、SHAP 分析和线上可用性做二次筛选。对大模型应用相关任务,还要额外关注特征是不是把未来信息泄漏进来了,比如用到了答案后的行为、后验标签或者系统回写字段。真正好的特征不是“看起来复杂”,而是对目标有增益、跨时间稳定、线上能拿到、不会污染训练。

4. 离散特征和连续特征的构造逻辑分别是什么,为什么不能机械做分桶

离散特征更关注枚举空间、组合关系和稀疏表达,连续特征更关注尺度、分布、边界和单调性。离散特征常见做法是编码、交叉、聚合、频次统计和 embedding 化;连续特征则更多涉及归一化、分位数变换、截断、winsorize、log 变换和动态分桶。不能机械分桶,是因为分桶本质上是在做信息压缩,如果分桶边界和真实业务拐点不一致,就会把信号抹平。比如时长、价格、曝光次数这类特征,经常天然呈幂律分布,均匀分桶往往最差,分位数分桶或监督式分桶通常更合理。

import numpy as np
import pandas as pd

def quantile_bucket(x, q=10):
    x = pd.Series(x)
    return pd.qcut(x.rank(method="first"), q=q, labels=False)

arr = np.array([1, 2, 2, 3, 10, 20, 30, 100, 300, 1000])
print(quantile_bucket(arr, q=4).tolist())

5. CoT 数据到底该怎么构建,为什么“答案对”不等于“链路可学”

CoT 数据构建最难的地方不在于写出一段推理过程,而在于确保这段过程既真实反映决策依赖,又不会给模型灌输伪推理模板。高质量 CoT 一般要同时满足三件事:中间步骤对最终答案真的有贡献;步骤之间不存在标签泄漏和反向解释;不同题型的推理模式可泛化而不是只会套壳。工程上常见做法是先从高置信任务中抽出可验证中间态,再结合规则、程序执行、教师模型多样采样和人工审核构造推理轨迹。只保留“答案对”的样本不够,因为很多样

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

04-14 08:40
山东大学 Java
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务