一面 1. 一个一个问项目 2.常见数据预处理工作(缺失值填补,离散变量编码,归一化等等) 3. 数据分箱算法了解吗?分箱算法的好处,python常用的自动分箱的库。(这个我也麻了,自动分箱在学校项目里确实很少用到) 4.了解哪些特征筛选方法? 5. K-means和GMM原理,两个有什么联系和区别 6. 还了解哪些聚类算法?聚类算法有哪些常用的距离度量方式? 7. KNN算法找到最近的样本点计算很复杂,有什么改进算法?(KD树) 8. 决策树算法按照什么标准进行分割的?随机森林算法和boosting tree有什么区别? 9. 随机森林进行特征筛选的原理是...