数据分析之机器学习与数据挖掘高频面试题及答案

 机器学习与数据挖掘-7

31.决策树模型用到的xgboost(腾讯)

参考答案

首先,介绍背景(包括项目背景+所用数据集特征+预设目标)。随后根据这个数据集的特征再结合xgb的优势,所以才用xgb(为什么要用xgb)。最后说明用了之后的效果,是否达成了预设目标/达成了其他的目标。

答案解析

需要结合简历上的项目来介绍,包括为什么要用以及用了之后的效果。

 

32.xgboost的特性(腾讯)

参考答案

梯度下降,利用损失函数的二阶导数作为学习目标,采用牛顿法进行优化。

正则项,利用L2正则来防止过拟合。

树节点分裂方法,不是简单地按照样本个数进行分位,而是以二阶导数值作为权重。

shrinkage(收缩)方法,相当于学习系数eta。对每颗子树都要乘上该系数,防止过拟合。

 

33.为什么选择xgboost而不是其他(腾讯)

参考答案

介绍项目背景(主要是数据集特征),再说明xgb的优点(符合你的项目背景和数据集特征的优点),实在没有符合项目背景的优点可以直接介绍xgb与其他集成学习优势的地方(利用了损失函数的二阶导数,L2正则,缺失值处理等)来说明自己了解这个算法的优点。

 

34.xgboost的优点(腾讯)

参考答案

1.利用了损失函数的二阶导数,使得最终值逼近真实值。

2.out-of-core, cache-aware优化内存等方法来加速计算。

3.利用L2正则来防止过拟合。

4.shrinkage(收缩)方法,相当于学习系数eta。对每颗子树都要乘上该系数,防止过拟合。

5.缺失值处理:通过枚举所有缺失值在当前节点是进入左子树,还是进入右子树更优来决定一个处理缺失值默认的方向。

6.支持并行处理,提高了处理速度。

答案解析

选3-4个即可

 

35.xgboost常用的调参参数有哪些(腾讯)

参考答案

1.max_depth:树的最大深度。 这个值也是用来避免过拟合的。max_depth越大,模型会学到更具体更局部的样本。 需要使用CV函数来进行调优。

2.eta:学习率。 通过减少每一步的权重,可以提高模型的鲁棒性。

3.n_estimator: 这是生成的最大树的数目,也是最大的迭代次数。

4.objective:定义需要被最小化的损失函数。

5.booster:选择每次迭代的模型

 

36.研究生项目的面部识别模型,问了我GBM是什么,优缺点;还问了SVM/GBM/XGBoost的共同点和比较;最后问了XGBoost比较GBDT的区别。(招联金融)

参考答案

GBM算法是先根据初始模型计算伪残差,之后建立一个基学习器来解释伪残差,该基学习器是在梯度方向上减少残差。再将基学习器乘上权重系数(学习速率)和原来的模型进行线性组合形成新的模型。这样反复迭代就可以找到一个使损失函数的期望达到最小的模型。

优点:

1.继承了单一决策树的优点,又摒弃了它的缺点;

2.能处理缺失数据;

3.对于噪声数据不敏感;

4.能拟合复杂的非线性关系;

5.精确度较高;

6.通过控制迭代次数能控制过度拟合;

7.计算速度快,性能较优。

缺点:

1.顺序计算;

2.可能会出现过拟合现象;

3.设置参数较多;

4.抗干扰能力不强。

GBM/XGBoost的共同点和比较

相同点:

1.都是采用集成学习boosting的思想。

2.都可以在特征上并行处理。

不同点:

1.XGBoost 使用的是近似算法,先对特征值进行预排序,然后根据二阶梯度进行分桶,能够更精确的找到数据分隔点,但是复杂度较高。LightGBM 使用的是 histogram 算法,只需要将数据分割成不同的段即可,不需要进行预先的排序。占用的内存更低,数据分割的复杂度更低。

2.决策树生长策略,XGBoost 采用的是 Level-wise 的树生长策略,LightGBM 采用的是 leaf-wise 的生长策略,以最大信息增益为导向。后者进度更高,容易过拟合,所以要控制最大深度。

3.并行策略对比,XGBoost 的并行主要集中在特征并行上,而 LightGBM 的并行策略分特征并行,数据并行以及投票并行。

XGBoost比较GBDT的区别:

1.GBDT无显式正则化;

2.GBDT仅使用了目标函数一阶泰勒展开,而XGBoost使用了二阶的泰勒展开值,加快收敛速度;

3.XGBoost加入了列采样;

4.XGBoost对缺失值的处理;

5.XGBoost通过预排序的方法来实现特征并行,提高模型训练效率;

6.XGBoost支持分布式计算。

 

37.SVM原理(工商银行、同盾科技、腾讯)

参考答案

SVM是在特征空间上找到最佳的分离超平面,使得训练集上的正负样本间隔最大。是用来解决二分类问题的有监督学习算法,在引入核方法后也可以解决非线性问题。

#学习路径#
全部评论
谢谢分享!
点赞 回复 分享
发布于 2022-02-14 18:04

相关推荐

ddd7_:跟我一模一样,加微信的hr都同一个,扫码了白年书人查看图片
点赞 评论 收藏
分享
评论
12
128
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务