《数据挖掘概念与技术》书记 1
《数据挖掘概念与技术》书记
有感知识点:
- 数据挖掘的进化过程:
数据库和信息技术->数据库系统->高级数据库系统;高级数据分析的数据仓库、数据挖掘;基于web的数据库->数据仓库 - 数据仓库:一种多个异构数据在单个站点以统一的模式组织的存储,以支持管理决策。
- 数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP是一种分析技术,具有汇总、合并和聚集以及不同的角度观察信息的能力。尽管其支持多维分析和决策,但对于深层次的分析,仍然需要其他数据挖掘工具。
数据挖掘
数据挖掘又称数据中的知识发现(KDD),知识发现过程主要由以下步骤的迭代序列组成:
- 数据清理(消除噪声和删除不一致数据等)
- 数据集成(多种数据源可以组合在一起)
- 数据选择(从数据库中提取与分析任务相关的数据)
- 数据变化(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
- 数据挖掘(基本步骤,使用智能方法提取数据模式)
- 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
- 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
故数据挖掘是其中一个步骤,有些人也代称为整个知识发现过程。
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据Log。
挖掘什么类型的数据
- 数据库数据
- 数据仓库
- 事务数据
- 其他类型数据
挖掘什么类型的模式
数据挖掘功能 | 类型 |
---|---|
特征化与区分 | 描述性 |
频繁模式、关联和相关性分析 | 描述性 |
分类与回归 | 预测性 |
聚类分析 | 描述性 |
离群点分析 | 描述性 |
描述性挖掘任务刻画目标数据中数据的一般性质。
预测性挖掘任务在当前数据上进行归纳,以便做出预测。
使用什么类型的技术
- 统计学
- 机器学习
- 数据库系统与数据仓库
- 信息检索
面向什么类型的应用
-
商务智能
对于客户关系管理,进行聚类根据顾客的相似性进行分组,对其进行定制服务。
-
Web搜索引擎
- 必须大量并且不断增加的数据
- 处理在线数据,也许可以在海量数据集上离线构建模型
- 在快速增长的数据流上维护和增量更新模型
- 处理出现次数不多的查询,如何解决数据倾斜
面临什么问题
- 挖掘方法
- 用户界面
- 交互挖掘,允许用户在挖掘过程中动态地改变搜索的聚焦点,根据返回的结果提炼挖掘请求,并在数据和知识空间交互地进行下钻、切块和旋转。
- 结合背景知识
- 特定的数据挖掘和数据挖掘查询语言
- 结果表示和可视化
- 有效性和可伸缩性
- 数据库类型的多样性
- 数据挖掘与社会
- 数据隐私