【12】机器学习算法面试八股

211为什么Lasso可以筛选变量?

L1是模型各个参数的绝对值之和∣w⃗∣0，那么对目标函数经过优化后，一部分参数会变为0，另一部分参数为非零实值。这样就起到了筛选特征的作用。

212L1正则化为什么能缓解过拟合

过拟合是由于特征过多，L1可以筛选特征，所以能够缓解过拟合

213BN+CONV融合公式及作用

网络完成训练后，在inference阶段，为了加速运算，通常将卷积层和BN层进行融合

214 初始化方法

• 全0初始化，就是将所有权重置0。当然是不能这样的，神经网络通过梯度更新参数，参数都是0，梯度也就是0，神经网络就停止学习了。• 随机初始化将参数随机化，不过随机参数服从高斯分布或均匀分布。高斯分布均值为0，方差为1。0.001为控制因子，这样使得参数期望尽量接近0Xavier初始化随机初始化没有控制方差，所以对于深层网络而言，随机初始化方法依然可能失效。理想的参数初始化还得控制方差，对w进行一个规范化。“Xavier初始化”维持了输入输出数据分布方差一致性。He初始化对于非线性激活函数ReLU，“Xavier初始化”方法失效。因此He初始化，在Xavier的基础上，假设每层网络有一半的神经元被关闭，于是其分布的方差也会变小。经过验证发现当对初始化值缩小一半时效果最好，故He初始化可以认为是Xavier初始 / 2的结果。

215什么是网络参数初始化

神经网络在训练时，前向传播和反向传播都涉及到每个神经元的权重更新wi，也就是我们说的网络参数了，当然这些参数需要一个初始值。方法有很多，全0初始、随机初始等等，每个方法都有优缺点。

216为什么需要合理的参数初始化

理想的网络参数初始化使得模型训练事半功倍，相反，糟糕的初始化可能导致网络梯度消失和梯度爆炸。ReLU，如果初始化不合理，前向运算的结果可能全部为负，发生“死区”现象。再简单说，就是参数又不能过大，又不能过小。比如在前向传播过程中输出为h(wx+b)，因为w很小，所以输出很小，同时反向传播过程中梯度的变化也很小，那么参数的改变也很小，在不断的正向传播乘很小的数，反向传播又几乎不变的情况下，最后w会越来越小，趋近于0，出现梯度消失。反之同理。最理想化的参数初始化经过多层网络后，信号不被过分放大或过分减弱。使每层网络的输入和输出的方差一致。然后我们还要尽量保证每层网络参数分布均值为0，加快训练；计算方便。

217网络参数初始化为0可以吗？

将所有权重置0。当然是不能这样的，神经网络通过梯度更新参数，参数都是0，梯度也就是0，神经网络就停止学习了。

218随机初始化参数有什么问题？

随机初始化没有控制方差，所以对于深层网络而言，随机初始化方法依然可能失效。理想的参数初始化还得控制方差，对w进行一个规范化

219手推梯度消失和梯度爆炸问题

220怎么缓解梯度消失

使用合理的参数初始化方案，如He初始化
使用 ReLU、LReLU、ELU、maxout 等激活函数
使用批规范化BN
残差结构
预训练加微调
梯度剪切

221梯度消失的根本原因

我们神经网络中的初始权值也一般是小于 1 的数，所以相当于公式中是多个小于 1 的数在不断的相乘，导致乘积和还很小。如果层数不断增多，乘积和会越来越趋近于 0，以至于当层数过多的时候，最底层的梯度会趋近于 0，无法进行更新，并且 Sigmoid 函数也会因为初始权值过小而趋近于 0，导致斜率趋近于 0，也导致了无法更新。

222说说归一化方法

更正:标准差不是方差

223为什么要归一化

1）归一化后加快了梯度下降求最优解的速度2）归一化有可能提高精度

224评价指标

机器学习中的评价指标TP、FP、FN、TN分别为真阳性、假阳性和假阴性、真阴性

225Precision和Recall的应用场景：

地震的预测对于地震的预测，我们希望的是Recall非常高，嫌疑人定罪基于不错怪一个好人的原则我们希望的是precision非常高，有的场景我们希望Precision和Recall都最大。所以我们需要一个综合评价两者的指标：F1-score

226AUC是什么？AUC是否对正负样本比例敏感？不敏感

227分类模型如何评价

有几个指标：

Accuracy：即所有分类正确的样本占全部样本的比例
Precision：查准率。
Recall：查全率
F1-score：衡量Precision和Recall之间的联系
AUC 值为 ROC 曲线所覆盖的区域面积，显然，AUC越大，分类器分类效果越好。

228准确率与精准率的区别

229AUC的意义和两种计算方法

230讲讲分类，回归，推荐，搜索的评价指标

1. 分类指标有几个指标：

Accuracy：即所有分类正确的样本占全部样本的比例
Precision：查准率。
Recall：查全率
F1-score：衡量Precision和Recall之间的联系
AUC 值为 ROC 曲线所覆盖的区域面积，显然，AUC越大，分类器分类效果越好。 2. 回归指标（我们在讲损失函数的时候讲过，不再赘述）有几个指标：
均方误差（MSE）：
均方根误差（RMSE）
MAE(平均绝对误差)
R Squared：确定系数：相关系数平方 3. 推荐任务评价指标： 离线评估 offline evaluation
评分预测对于评分预测模型：训练数据集训练好数据，测试数据集预测用户对物品的评分。评价指标：MAE和RMSE
对于Top N模型：对排名进行评估。评价指标：准确率，召回率，F1 在线评估 online evaluatuion
A/B test 将用户划分为A,B两组，A实验组用户，接受所设计的推荐算法推荐的商品，B对照组用户，接受基线方法推荐的商品。通过对比两组用户的行为来评估推荐算法的性能。 CTR:用户点击率，通过该算法计算出的被点击的项目占推荐项目总数的百分比 CR:用户转化率，用户购买的项目占被点击的项目的比率。 4. 搜索任务评价指标 Accuracy、Precision、Recall、AUC、P-R曲线