AI-Agent 面试题汇总 - 机器学习篇

1. 机器学习中特征的理解

特征(Feature)是样本可量化的属性,是模型输入。特征质量通常决定模型效果上限。常见有数值、类别、文本、时间、统计聚合、交叉特征等。

2. 机器学习中有哪些特征工程方法?

常见方法:缺失值处理、异常值处理、编码、标准化/归一化、特征构造、特征选择、降维。

from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression

num_cols = ["age", "salary"]
cat_cols = ["city", "edu"]

preprocess = ColumnTransformer([
    ("num", Pipeline([
        ("imputer", SimpleImputer(strategy="median")),
        ("scaler", StandardScaler())
    ]), num_cols),
    ("cat", Pipeline([
        ("imputer", SimpleImputer(strategy="most_frequent")),
        ("onehot", OneHotEncoder(handle_unknown="ignore"))
    ]), cat_cols)
])

clf = Pipeline([
    ("prep", preprocess),
    ("model", LogisticRegression(max_iter=200))
])

3. 机器学习中的正负样本

二分类中目标类一般记为正样本(1),非目标类为负样本(0)。当类别不平衡时,常用重采样、类别权重、阈值调优、PR-AUC等方式处理。

4. 线性分类器与非线性分类器的区别及优劣

线性分类器决策边界是超平面,训练快、可解释性好;非线性分类器表达能力强,可拟合复杂边界,但更易过拟合、调参成本更高。

5. 如何解决过拟合问题

可通过增加数据、正则化、降低模型复杂度、交叉验证、早停、集成学习等方式缓解过拟合。

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(
    n_estimators=300,
    max_depth=8,
    min_samples_leaf=5,
    random_state=42
)
scores = cross_val_score(model, X, y, cv=5, scoring="f1")
print(scores.mean())

6. L1 和 L2 正则的区别,如何选择 L1 和 L2 正则

L1 倾向产生稀疏解(可做特征选择);L2 倾向让参数整体变小(更稳定)。高维稀疏场景可优先尝试 L1,通用场景常先试 L2。

from sklearn.linear_model import LogisticRegression

l1_model = LogisticRegression(penalty="l1", solver="liblinear", C=1.0)
l2_model = LogisticRegression(penalty="l2", solver="liblinear", C=1.0)

7. 有监督学习和无监督学习的区别

有监督学习有标签(分类/回归);无监督学习无标签(聚类/降维/异常检测)。

8. 有

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论
很强啊 大佬面了多少家
点赞 回复 分享
发布于 03-10 23:02 河北
太及时了
点赞 回复 分享
发布于 03-10 22:17 云南
感谢分享 所以 现在算法主要是使用Adam吗?
点赞 回复 分享
发布于 03-10 21:46 黑龙江

相关推荐

03-27 13:50
东北大学 C++
我本身的主力编程语言就是Python,再加上导师的研究方向刚好是机器学习、深度学习,这方面的基础也就自然而然积累了一些。后来也是误打误撞,进入了AI Agent开发相关的岗位实习,整个过程也算实打实的干中学、边做边练。刚接触这块的时候,我最先做的就是梳理Agent的主流开发框架、完整运行流程,先把整体体系摸清楚。等对各类框架有了基础认知后,我就开始往深钻研,吃透每个模块底层的代码逻辑:一边在GitHub上研读优质的开源项目代码,一边仔细扒LangChain官网,把里面的各项功能都研究明白,在这里也特别感谢我的小导豆包老师,帮了我不少忙。把整体框架和流程吃透之后,我就开始深耕各个核心模块,比如深挖RAG模块里的文本分块方式、Embedding实现逻辑、检索增强的实现原理,以及各类优化策略等等,一点点把细节摸透。但这个时候也真的忍不住感叹,AI行业的技术迭代速度实在太快了,我刚把一套技术技能学扎实,Claw Bot也就是现在的龙虾模型就推出了,还是得持续跟进、不停学习。平时也有不少朋友问我,有没有推荐的学习老师或者教程。其实我就是典型的电子蝗虫学习法,不管来源是什么,只要是自己需要的知识点、技术内容,就针对性去看去学,完全按需学习。总而言之,AI行业更新迭代的速度太快了,想要跟上节奏就必须保持持续学习的状态,有时候甚至还要及时跟进顶会论文,才能不落后。以上就是我这段时间的完整学习路径啦,也希望评论区的各位大佬多多指点、不吝赐教。
从事AI岗需要掌握哪些技...
点赞 评论 收藏
分享
评论
4
6
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务