2023-06-17 11:33 知乎_产品

关注

Day51：数据预处理和特征工程

alt

上一节我们讲了降维的四种基本算法，其实降维就是对数据进行处理。在机器学习中，数据预处理和特征工程是非常重要的步骤，它们对于模型的性能和准确性有着重要的影响。本节将介绍常见的数据预处理方式和特征工程技术。

数据预处理

数据预处理是指在应用机器学习算法之前对数据进行清洗、转换和规范化的过程。以下是几种常见的数据预处理方式：

数据清洗：
- 去除重复值：使用pandas库的drop_duplicates()函数去除数据集中的重复值。
- 处理缺失值：使用pandas库的fillna()函数填充缺失值，可以使用均值、中位数或其他合适的值进行填充。
- 处理异常值：可以使用统计方法或可视化工具检测和处理异常值。
数据转换：
- 特征编码：将非数值型特征转换为数值型特征，例如使用pandas库的get_dummies()函数进行独热编码。
- 特征缩放：将不同范围的特征缩放到相同的尺度，例如使用sklearn库的MinMaxScaler或StandardScaler进行特征缩放。
数据规范化：
- 归一化：将特征值缩放到0和1之间，例如使用sklearn库的MinMaxScaler进行归一化。
- 标准化：将特征值转换为均值为0、方差为1的标准正态分布，例如使用sklearn库的StandardScaler进行标准化。

以下是一个数据预处理的示例：

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
import pandas as pd

# 加载iris数据集
data = load_iris()
X = data.data
y = data.target

# 将特征转换为DataFrame
df = pd.DataFrame(X, columns=data.feature_names)
df["target"] = y

# 数据预处理
scaler = StandardScaler()
scaled_features = scaler.fit_transform(X)

# 将处理后的特征转换为DataFrame
df_scaled = pd.DataFrame(scaled_features, columns=data.feature_names)
df_scaled["target"] = y

# 打

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

大模型-AI小册文章被收录于专栏

1. AI爱好者，爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生，给实验室搬砖的uu，强烈建议你花时间学完这个，后续搬砖比较猛 4. 任何对编程感兴趣的，且愿意掌握一门技能的人

全部评论

推荐最新楼层

今天 12:41

汤臣倍健_市场倍优生(准入职员工)

三棵树内推，三棵树内推码

三棵树ai测评行为能力1.请做一段自我介绍，说说你的教育背景，实习经验等，用时不超过5分钟。2.在你的学习和项目经历中，你似乎经常面临时间紧迫、任务繁重的挑战，能否分享一个具体的例子，描述一下在面对这些压力时，你如何管理和应对及最终达成目标的。3.你参与的这个项目最终的成果如何，你的成果得到了哪些方面的认可和表彰。4.回忆一下在你的学习或实习经历中，有一次你主动追求极致，把事情做到最好的例子，你当时究竟做了什么，为什么选择这么做，怎么证明这件事已经做到了最好。5.请回忆一个在团队工作里，你和团队成员没能达成一致意见的情况，当时你具体是怎么做的，说了什么去影响对方，最后结果是怎样的呢？6.从你的...

点赞评论收藏

分享

今天 13:37

安克创新 Anker_软件开发-业务运维(准入职员工)

安克创新内推，安克创新内推码

（已offer）‖安克创新春招四轮面经分享timeline：5.8一面—5.10二面—5.11三面—5.17终面—5.19offer call—5.21谈薪 ps：终面本来是5月14号，后面因为大老板的时间冲突改到了5月17号，整体面试节奏较快 —————————————— 每个面试官都有自己不同的面试方法和提问偏好，但往往都是结合简历和经历进行提问，所以我只分享一些在安克面试准备时用到的通用方法论，以及穿插一些在面试中被问到的问题 面试准备核心围绕两个逻辑展开，即回答“why you&why anker”两个问题 拆解来看可以分为企业了解、经历复盘、行为面准备三个板块 -简历深挖：把...

点赞评论收藏

分享

2025-12-30 08:34

中国矿业大学行业研究

关于我的网友认识我领导这件事

狸猫换offer：神通广大的互联网

点赞评论收藏

分享

02-03 13:20

已编辑

吉林大学 Java

Java后端末流985混子简历求拷打

前几天出门玩去了回来后听从建议，删除了一些把握不住的内容，优化了简历语言表达，加了点量化数据，顺手把放上去项目的readme补充了一点仅仅找个实习来说，我感觉这个简历方向应该没什么问题了，希望前辈们不吝赐教还有一些想了解的细节问题:1.暑期实习和日常实习？如果不all in转正，只是为了秋招准备简历上有个实习，那两者有什么区别2.算法真的是突击hot100就够了嘛，我目前一道算法题没做过，才正准备开始做能不能直接爽爽背

李橙子：只找个实习的话，这简历没啥问题的

实习，不懂就问

点赞评论收藏

分享

02-21 13:54

柠檬微趣_HR(准入职员工)

柠檬微趣内推，柠檬微趣内推码

柠檬微趣前端一面1. 自我介绍2. JS定义变量方式？let const var区别？3. 为什么用const定义变量不可以被修改？底层原理？一定不能改？4. `let a = 1; let a = 2;` 会发生什么？会报什么错？5. `var a = 1; var a = 2;` 可以吗？`var a = 1; let a = 2;` 呢？6. `var`特性（如变量提升）？`console.log(a); var a = 1;` 的结果是什么？7. JS中基本数据类型？分别存储在哪里（栈/堆）？8. `let a = {}; b = a; `修改b会影响a吗（会）如何避免（深拷贝）9. ...

点赞评论收藏

分享

评论

1

4

全站热榜

更多

创作者周榜

更多

正在热议

更多

# xx岗简历求拷打 #

13530次浏览 136人参与

# 如何看待offer收割机的行为 #

1048825次浏览 6609人参与

# 开工第一帖 #

46639次浏览 872人参与

# 互联网回暖，腾讯要招5000人！ #

25356次浏览 598人参与

# 有转正机会的小厂实习值得去吗？ #

10573次浏览 112人参与

# 这些公司卡简历很严格 #

88782次浏览 395人参与

# 硬件人求职现状 #

506197次浏览 4803人参与

# 掌握什么AI技能，会为你的求职大大加分 #

10801次浏览 444人参与

# 聊聊这家公司值得去吗 #

885948次浏览 4720人参与

# 携程求职进展汇总 #

892363次浏览 5920人参与

# 面试反问你会问什么 #

169695次浏览 1744人参与

# 求职季如何保持心态不崩 #

214462次浏览 1471人参与

# 机械人还在等华为开奖吗？ #

316323次浏览 1586人参与

# 你最讨厌面试被问什么 #

11277次浏览 130人参与

# 如何看待应届生身份？ #

229006次浏览 2297人参与

# 远程面试的尴尬瞬间 #

329246次浏览 1919人参与

# 制造业的秋招小结 #

145117次浏览 2095人参与

# 金三银四，你有感觉到吗 #

696943次浏览 6097人参与

# 联想求职进展汇总 #

335470次浏览 2224人参与

# 工作不开心辞职是唯一出路吗 #

10318次浏览 40人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务