数据预处理
1 数据预处理:概述
数据库极易受噪音、缺失值和不一致数据的侵扰。低质量的数据将导致低质量的挖掘结果。
数据预处理技术有很多。数据清理 可以用来清除数据中的噪声,纠正不一致。数据集成 将数据由多个数据源合并成一个一致的数据存储,如数据仓库。数据归纳 可以通过如聚集、删除冗余特征或聚类来降低数据的规模。数据变换 (例如,规范化)可以用来把数据压缩到较小的区间,如0.0到1.0。
1.1 数据质量:为什么要对数据预处理
数据质量 设计许多因素,包括 准确性、完整性、一致性、时效性、可信性和可解释性。
数据质量的三个要素:准确性、完整性和一致性。
1.2 数据预处理的主要任务
数据预处理的主要步骤:
数据清理
数据集成
数据归约
数据变换
1.2.1 数据清理
填写缺失值
光滑噪声数据
识别或删除离群点
解决不一致性来“清理”数据
1.2.2 数据集成
在分析中使用多个数据源的数据,这涉及集成多个数据库、数据立方体或文件,即 数据集成 。代表同一概念的属性在不同数据库中可能有不同的名字,导致不一致性和冗余。
1.2.3 数据归约
数据规约 得到数据集的简化表示,它小得多,但能够产生同样(或几乎同样)的分析结果。
数据归约策略包括:
维归约:使用数据编码方案,以便得到原始数据的简化或“压缩”表示。例子包括数据压缩技术(例如:小波变换和主成分分析),以及属性子集选择(例如:去掉不相关的属性)和属性构造(例如:从原来的属性集导出更有用的小属性集)。
数值归约:使用参数模型(例如:回归和对数线性模型)或非参数模型(例如:直方图、聚类、抽样或数据聚集),用较小的表示取代数据。
1.2.4 数据变换
离散化和概念分层产生是强有力的工具,因为它们使得数据的挖掘可以在多个抽象层次上进行。规范化、数据离散化和概念分层产生都是某种形式的 数据变换。
规范化
数据离散化
概念分层
离散化和概念分层:属性的原始值被区间或较高层的概念所取代。
2 数据清理
2.1 缺失值
填补缺失值的方法:
忽略元组:缺少类标号时通常这样做(假定挖掘任务设计任务)。除非元组有多个属性缺少值,否则该方法不是很有效。
人工填写缺失值
使用一个全局常量填充缺失值
使用属性的中心度量(如均值或中位数)填充缺失值:对于对称数据分布而言,可以使用均值,而倾斜数据分布应该使用中位数
使用与给定元组属于同一类的所有样本的属性均值或中位数
使用最可能的值填充缺失值:可以使用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定
方法3 - 方法6使数据有偏,填入的值可能不可信。方法6 是最流行的策略。
2.2 噪声数据
噪声 是被测量的变量的随机误差或方差。
2.2.1数据光滑技术
分箱(binning)
通过考察数据的近邻(即周围的值)来光滑有序数据值。它进行局部光滑。
回归(regression)
回归: 可以用一个函数拟合数据来光滑数据。这种技术称为回归。线性回归涉及找出拟合两个属性(或变量)的最佳直线。多元线性回归是线性回归的扩充,其中涉及的属性是多于两个,并且数据拟合到一个多维曲面。
离群点分析(outlier analysis)
可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被称为离群点。
2.2.2 偏差检测
数据清理过程的第一步是偏差检测。
元数据
字段过载
根据唯一性规则、连续性规则和空值规则考察数据
数据清洗工具
数据审计工具
数据迁移工具
ETL (Extraction / Transformation / Loading) 工具
2.3 数据集成
数据挖掘经常需要数据集成 —— 合并来自多个数据存储的数据。
2.3.1 实体识别问题
数据分析任务多半设计数据集成。数据集成将多个数据源中的数据合并,存放在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。
在数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能“匹配”?这设计实体识别问题。
2.3.2 冗余和相关分析
冗余是数据集成的另一个重要问题。
冗余
一个属性如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的
属性或维命名不一致可能导致结果集中的冗余
有些冗余可被相关分析检测到:给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴涵另一个。
相关分析
对于标称属性,使用 $\chi ^2$ (卡方)检验。
对于数值属性,使用 相关系数 和 协方差 ,它们都评估一个属性的值如何随另一个变化
最后更新于
这有帮助吗?