统计学面试题与解析2

面试高频题11：

题目：辛普森悖论，以及如何避免这种现象

答案解析：

⾟普森悖论指在某个条件下的两组数据，分别讨论时都会满⾜某种性质，可是⼀旦合并考虑却可能导致相反的结论。为了避免⾟普森悖论导致我们得出两个相反的结论，我们需要选择将数据分组或将它们聚合在⼀起。其中我们要学会思考因果关系：数据如何⽣成，基于此，哪些因素会影响我们未展示的结果？

例如美国加州大学研究生录取数据的分析中，目的是探究伯利克里分校研究生录取是否存在性别歧视。即性别与录取率的关系。但是性别会导致兴趣的不同，而兴趣会决定专业的不同，不同专业的录取率也会不同。总体上，我们只看到了性别和录取率的关系，但是却忽略了专业这个内在原因。而拆分专业去观察，就是控制男女在专业上是相同的，这样更有利于判断因果关系。

面试高频题12：

题目：作为出行领域的小玩家，司机端的订单构成是什么样的? 头部优秀司机聚集大量订单，还是订单分布比较发散。

答案解析：

若为较成熟健康的体系中，应为后者；在初期时为前者。在较健康的供给端体系中，司机端的订单构成应为倒三角或者菱形分布，即头部和腰部司机的订单较多，尾部的订单较少；而在初期时则是头部效应明显，订单集中在头部，后期随着司机和订单量的增多，不可能由头部司机撑起大部分订单的。

面试高频题13：

题目：贝叶斯定理是什么？

答案解析：

贝叶斯定理（Bayes' theorem）是概率论中的一个定理，描述在已知条件下，某事件的发生概率。通常，事件A在事件B已发生的条件下发生的概率，与事件B在事件A已发生的条件下发生的概率是不一样的。然而，这两者是有确定的关系的，贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途，即透过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边际概率分布有关。

贝叶斯定理常用在信息检索、文本分类、疾病检测等场景。

应用举例（疾病检测）：

假设一个常规的检测结果的灵敏度和特异度均为99%，即患病者每次检测呈阳性（+）的概率为99%，而未患病者每次检测呈阴性（-）的概率为99%。假设医院对全体就诊人员进行疾病检测，已知0.5%的就诊者患病，请问每位检测结果呈阳性的就诊者患病的概率有多高？

令“D”为就诊人员患病事件，“N”为就诊人员未患病事件，“+”为检测呈阳性事件，则某人检测呈阳性时确实患病的条件概率为：

面试高频题14：

题目：对朴素贝叶斯的理解？

答案解析：

朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。“朴素”是指假定给定目标值时属性之间相互条件独立。优点：

朴素贝叶斯算法假设了数据集属性之间是相互独立的，因此算法的逻辑性十分简单，并且算法较为稳定，当数据呈现不同的特点时，朴素贝叶斯的分类性能不会有太大的差异。即朴素贝叶斯算法的稳定性比较好，对于不同类型的数据集不会呈现出太大的差异性。当数据集属性之间的关系相对比较独立时，朴素贝叶斯分类算法会有较好的效果。缺点：

数据集属性的独立性在很多情况下是很难满足的，因为数据集的属性之间往往都存在着相互关联，如果在分类过程中出现这种问题，会导致分类的效果大大降低。