机器学习1 数据处理

任务一
1 ,读取数据 本地数据 pandas的read_csv('数据')sklearn数据
make_moons X,y=make_moons()
2 ,认识数据
本地数据 前几行 后几行 数据的描述性统计信息 基本信息 数据的总条数 特征总数
sklearn数据:拿到特征和标签 使用pandas进行转换合并
3, 数据预处理
缺失值(有:填充)
重复值(如果)
异常值(iqr:填充)
4 ,绘图分析
条形图 统计图 直方图 热力图 箱型图

任务二
5 ,特征选择以及处理
计算相关性corr()、使用热力图绘制查看相关性
获取特征和标签 pop()
对标签进行数组转换 对列进行补充reshape(-1,1)
对特征进行缩放 有时标签缩放
降维 维度数默认为二维
数据切分

任务三
6,模型应用
分类模型:
逻辑回归、svm当中的svc、决策数
集成学习 Bagging(传入分类模型、逻辑回归。svm、决策树(Bagg+决策树))、Adaboost(传入分类模型、逻辑回归、svm,决策树)、Randomforest(随机森林模型 不需要传入模型)

网格搜索交叉验证确认模型当中参数
逻辑回归 C:[0.01-100]
svm  C:[0.01-100] ,kernel:['rbf','linear','poly']
集成学习:确认的是模型的数量[50,100,150]

回归模型:
一般线性回归模型
岭回归
拉锁回归|套索回归
随机森林回归
网格搜索交差验证

岭回归alpha
拉锁回归|套索回归alpha
随机森林回归 确认的是模型的数量[50,100,150]

写模型的相关指标:准确率 召回率 f1分数 混淆矩阵 分类报告 roc曲线 auc数值 写分类模型的学习曲线

信用卡预测
需要对数据二次划分 划分子集数据 重新使用各个模型对子集数据进行二次训练:需要观察各个模型在不同数据量下有什么 样的表现 需要文本说明并对模型提出优化措施并进行改正
#牛客AI配图神器#
全部评论

相关推荐

05-12 16:04
已编辑
江西财经大学 Java
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务