06-04 13:16 Rutgers, The State University of New Jersey 数据分析师发布于香港

关注

如何在面试中解释每个核心机器学习模型

机器学习是现代 AI 的核心，为从推荐系统到自动驾驶汽车的一切提供支持。但是，每个智能应用程序的背后都隐藏着使这一切成为可能的基础模型。本文将对关键机器学习模型进行了简明的介绍，以帮助您自信地在技术面试中取得优异成绩。

线性回归

线性回归试图通过使用最小二乘法找到与所有数据点的距离最小的“最佳拟合线”来找到自变量和因变量之间的关系。最小二乘法找到一个最小化残差平方和（SSR）的线性方程。

套索回归（L1）

套索回归是一种正则化技术，通过在模型中引入一定量的偏差来减少过拟合。它通过添加罚来最小化残差的平方差，其中罚等于 lambda 乘以斜率的绝对值。Lambda 是指处罚的严重程度。它用作超参数，可以更改该超参数以减少过度拟合并产生更好的拟合。当我们有大量特征时，L1 正则化是首选，因为它忽略了斜率值小得多的所有变量。

岭回归（L2）

岭回归类似于套索回归。两者之间的唯一区别是惩罚项的计算。它添加了一个罚项，相当于量级乘以 lambda 的平方。当我们的数据受到多重共线性（自变量高度相关）时，最好使用 L2 正则化，因为它将所有系数缩小到零。

弹性网络回归

Elastic Net Regression 结合了套索回归和 ridge 回归的惩罚，以提供更加正则化的模型。它允许平衡这两种惩罚，与单独使用 l1 或 l2 相比，这会产生性能更好的模型。

多项式回归

它将因变量和自变量之间的关系建模为 n 次多项式。多项式是 k.xⁿ 形式的项之和，其中 n 是非负整数，k 是常数，x 是自变量。它用于非线性数据。

Logistic 回归

Logistic 回归是一种分类技术，它试图为数据找到最佳拟合曲线。它利用 sigmoid 函数在 0 和 1 之间转换输出。与使用最小二乘法找到最佳拟合线的线性回归不同，逻辑回归使用最大似然估计（MLE）来查找最佳拟合线（曲线）。

K 最近邻（KNN）

KNN 是一种分类算法，它根据新数据点与最近的分类点的距离对新数据点进行分类。它假设彼此靠近的数据点出口高度相似。KNN 算法也称为惰性学习器，因为它存储训练数据，并且在出现新的数据点进行预测之前不会将其分类为不同的类别。默认情况下，KNN 使用欧几里得距离来查找新数据的最近分类点，采用最近类的模式来查找新数据点的预测类。如果 k 的值设置为低，则新数据点可能会被视为异常值，但是，如果它太高，则它可能会忽略样本较少的类。

朴素贝叶斯

朴素贝叶斯是一种基于贝叶斯定理的分类技术。它主要用于文本分类。贝叶斯定理根据可能与事件相关的条件的先验知识来描述事件的概率。朴素贝叶斯之所以被称为朴素，是因为它假定某个特征的出现与其他特征的出现无关。

支持向量机

支持向量机的目标是在 n 维空间（n 个特征）中找到一个超平面，它可以将数据点分成不同的类。它是通过最大化类之间的边距 (距离) 来找到的。支持向量是超平面的闭合数据点，可以影响超平面的位置和方向，并有助于最大化类之间的边距。超平面的尺寸取决于输入特征的数量。

决策树

决策树是一种基于树的结构化分类器，其中包含一系列条件语句，用于确定样本在到达底部之前所采用的路径。决策树的内部节点表示特征，分支表示决策规则，叶节点表示结果。树的决策节点与 if-else 条件相同，叶节点包含决策节点的输出。它首先使用属性选择度量（ID3 或 CART）选择一个属性作为根节点，然后递归地将其余属性与其父节点进行比较以创建子节点，直到树到达其叶节点。

随机森林

随机森林是一种由多个决策树组成的集成技术。它在构建每个单独的树时使用 bagging 和特征随机性来创建不相关的决策树森林。随机森林中的每棵树都使用不同的数据子集进行训练以预测结果，然后将获得多数票的结果选为随机森林预测。例如，如果我们只创建了一个决策树，第二个决策树，那么我们的预测将是 0 类，但根据所有四棵树的模式，我们的预测已经变成了 1 类，这就是随机森林的力量。

额外的树

Extra Trees 与随机森林分类器非常相似，两者之间的唯一区别是它们选择根节点的方式。在随机森林中，最优特征用于分割，而在 Extra 树分类器中，选择随机特征进行分割，Extra 树提供更多的随机性，特征之间的相关性非常小。两者之间的另一个比较是，随机森林使用引导副本生成大小为 N 的子集来训练集成成员（决策树），而额外树使用整个原始样本。与随机森林相比，额外的树算法的计算速度要快得多，因为考虑到它随机选择分割点，每个决策树的训练直到预测的整个过程都是相同的。

ADA 提升

ADA Boost 是一种类似于 Random Forest 的提升算法，但有一些显著差异 —

ADA Boost 不是构建决策树森林，而是构建决策树林。（树桩是只有一个节点和两个叶子的决策树）
在最终决策中，每个决策桩都被分配了不同的权重。
它为错误分类的数据点分配更高的权重，以便在构建下一个模型时赋予它们更多的重要性。
它有助于将多个 “弱分类器” 组合成一个强分类器。

梯度提升

梯度提升构建多个决策树，其中每个树都从前一棵树的错误中学习。它使用残差来提高预测性能。Gradient boosting 的全部目标是尽可能减少残差。梯度提升类似于 ADA 提升，两者之间的区别在于 ADA 提升构建决策树桩，而梯度提升构建具有多个叶子的决策树。梯度提升首先构建一个基本决策树并采用初始预测，通常是平均值。然后，创建一个新的决策树，将初始特征和残差作为因变量。对新决策树的预测是通过取模型的初始预测 + 采样乘以学习率的残差来进行的，这个过程不断重复，直到我们达到最小误差。

K-Means 聚类分析

KMeans 聚类是一种无监督式机器学习算法，可将未标记的数据分组到 K 个不同的聚类中，其中 K 是用户定义的整数。它是一种迭代算法，它利用聚类质心将未标记的数据划分为 K 个聚类，使具有相似属性的数据点属于同一聚类。

分层聚类

分层聚类是另一种基于聚类的算法，它以树的形式创建聚类层次结构来划分数据。它会自动找到数据之间的关系，并将它们划分为 n 个不同的集群，其中 n 是数据的大小。分层聚类有两种主要方法：聚集型和分割型。在凝聚聚类中，我们将每个数据点视为一个聚类，然后组合这些聚类，直到我们只剩下一组（完整数据集）。另一方面，分割分层聚类从整个数据集（被视为一个聚类）开始，然后将其划分为不太相似的聚类，直到每个单独的数据点成为其自己唯一的聚类。

Apriori 算法

Apriori 算法是一种关联规则挖掘算法，它根据数据项之间的依赖关系将数据项映射在一起。使用 apriori 算法创建关联规则有一些关键步骤 —

1.确定对大小为 1 的每个项集的支持，其中 support 是数据集中项的频率。

2. 俯卧所有低于最低支持阈值的项目（由用户决定）

3。创建大小为 n+1 的项集（n 是以前的项集大小），然后重复步骤 1 和 2，直到所有项集支持都高于阈值。

4. 使用置信度生成规则（当 x 的出现已经给定时，x&y 一起出现的频率）

分层 K 折交叉验证

分层 K 折交叉验证是 K 折交叉验证的一种变体，它使用分层抽样（而不是随机抽样）来创建数据子集。在分层抽样中，数据被划分为 K 个不重叠的组，每个组的分布类似于整个数据集的分布。

主成分分析

PCA 是一种线性降维技术，可将一组相关特征转换为数量较少（k<p）的不相关特征，称为主成分。通过应用 PCA，我们会丢失一些信息，但它提供了许多好处，例如提高模型性能、降低硬件要求以及提供更好的机会来使用可视化来理解数据。

人工神经网络（ANN）

人工神经网络（ANN）的灵感来自人脑的结构，由相互连接的神经元层组成。它们由输入层、隐藏层和输出层组成，每个神经元对传入数据应用权重和激活函数。ANN 能够从数据中学习复杂的模式，因此广泛用于图像识别、自然语言处理和预测分析等任务。

卷积神经网络（CNN）

卷积神经网络（CNN）是一种特殊类型的神经网络，主要用于图像和视频处理。与将每个像素视为单独输入的传统神经网络不同，CNN 使用卷积层扫描图像并检测边缘、纹理和形状等模式。这使得它们在识别图像中的对象方面非常有效，即使它们出现在不同的位置也是如此。CNN 通过学习自动识别视觉数据中的模式，为面部识别、自动驾驶汽车和医学图像分析等技术提供动力。

Q-学习

Q-Learning 是一种强化学习算法，可帮助机器通过反复试验进行学习。它常用于游戏 AI、机器人和自学交易机器人。这个想法很简单：“代理”（如机器人或游戏角色）与环境交互，尝试不同的作，并根据其选择获得奖励或惩罚。随着时间的推移，它通过将学到的信息存储在称为 Q 表的东西中来学习在不同情况下采取的最佳行动。该技术广泛用于需要自主做出决策的 AI 系统，例如自动驾驶汽车在交通中行驶或 AI 驱动的游戏角色学习如何下棋。

词频 - 逆向文档频率

TF-IDF 是一种文本分析算法，可帮助识别文档中的重要单词。它的工作原理是计算单词出现的频率（词频，TF），并将其与单词在所有文档中的稀有程度（逆向文档频率，IDF）进行平衡。这可以防止 “the” 和 “is” 等常见词获得高排名，同时突出显示更有意义的词。TF-IDF 广泛用于搜索引擎（Google、Bing）、关键字提取和文档排名，帮助系统了解哪些单词与给定主题最相关。

潜在狄利克雷分配（LDA）

潜在狄利克雷分配（LDA）是一种主题建模算法，用于在大量文本中查找隐藏的主题。它假定每个文档都由不同的主题组成，并且每个主题都由经常一起出现的某些单词组成。LDA 在新闻分类、研究论文分类和分析客户评论方面特别有用，因为它有助于发现大量非结构化文本中的潜在主题。如果你曾经在研究工具中看到过自动主题建议功能，那么它很有可能使用 LDA 将相似的文本组合在一起。

Word2Vec

Word2Vec 是一种 NLP 算法，通过将单词转换为数字向量来帮助计算机理解单词的含义。与 TF-IDF 等仅查看词频的旧方法不同，Word2Vec 捕获单词之间的语义关系。例如，它可以学习到“king”和“queen”是相关的，或者“Paris”之于“France”就像“Berlin”之于“Germany”。这使得它在聊天机器人、情绪分析和推荐系统中非常有用，在这些系统中，理解单词的含义和上下文至关重要。许多现代语言模型，包括 Google 翻译和语音助手中使用的语言模型，都依赖 Word2Vec 作为更深入语言理解的基础。

数据分析+数据科学+商业运营文章被收录于专栏

钱德勒，拥有超10年全球顶尖企业数据运营与商业分析实战经验，曾任职于Amazon等国际头部企业，历任商业运营总监、商业智能负责人、数据分析高级经理等职。具备丰富的数据分析实战经验，曾成功从0搭建团队、优化流程、推动数字化转型，管理60余人的数据团队，累计面试超300人，尤其擅长数据相关岗位（如数据分析师、商业分析师、运营分析师、数据产品经理等）的职业规划、简历优化、技能提升、业务思维、面试技巧等。