数据预处理

1 数据预处理：概述

数据库极易受噪音、缺失值和不一致数据的侵扰。低质量的数据将导致低质量的挖掘结果。

数据预处理技术有很多。数据清理 可以用来清除数据中的噪声，纠正不一致。数据集成 将数据由多个数据源合并成一个一致的数据存储，如数据仓库。数据归纳 可以通过如聚集、删除冗余特征或聚类来降低数据的规模。数据变换 （例如，规范化）可以用来把数据压缩到较小的区间，如0.0到1.0。

1.1 数据质量：为什么要对数据预处理

数据质量 设计许多因素，包括准确性、完整性、一致性、时效性、可信性和可解释性。

数据质量的三个要素：准确性、完整性和一致性。

1.2 数据预处理的主要任务

数据预处理的主要步骤：

数据清理
数据集成
数据归约
数据变换

1.2.1 数据清理

填写缺失值
光滑噪声数据
识别或删除离群点
解决不一致性来“清理”数据

1.2.2 数据集成

在分析中使用多个数据源的数据，这涉及集成多个数据库、数据立方体或文件，即 数据集成 。代表同一概念的属性在不同数据库中可能有不同的名字，导致不一致性和冗余。

1.2.3 数据归约

数据规约 得到数据集的简化表示，它小得多，但能够产生同样（或几乎同样）的分析结果。

数据归约策略包括：

维归约：使用数据编码方案，以便得到原始数据的简化或“压缩”表示。例子包括数据压缩技术（例如：小波变换和主成分分析），以及属性子集选择（例如：去掉不相关的属性）和属性构造（例如：从原来的属性集导出更有用的小属性集）。
数值归约：使用参数模型（例如：回归和对数线性模型）或非参数模型（例如：直方图、聚类、抽样或数据聚集），用较小的表示取代数据。

1.2.4 数据变换

离散化和概念分层产生是强有力的工具，因为它们使得数据的挖掘可以在多个抽象层次上进行。规范化、数据离散化和概念分层产生都是某种形式的 数据变换。

规范化
数据离散化
概念分层

离散化和概念分层：属性的原始值被区间或较高层的概念所取代。

2 数据清理

2.1 缺失值

填补缺失值的方法：

忽略元组：缺少类标号时通常这样做（假定挖掘任务设计任务）。除非元组有多个属性缺少值，否则该方法不是很有效。
人工填写缺失值
使用一个全局常量填充缺失值
使用属性的中心度量（如均值或中位数）填充缺失值：对于对称数据分布而言，可以使用均值，而倾斜数据分布应该使用中位数
使用与给定元组属于同一类的所有样本的属性均值或中位数
使用最可能的值填充缺失值：可以使用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定

方法3 - 方法6使数据有偏，填入的值可能不可信。方法6 是最流行的策略。

2.2 噪声数据

噪声是被测量的变量的随机误差或方差。

2.2.1数据光滑技术

分箱（binning）

通过考察数据的近邻（即周围的值）来光滑有序数据值。它进行局部光滑。

回归（regression）

回归: 可以用一个函数拟合数据来光滑数据。这种技术称为回归。线性回归涉及找出拟合两个属性（或变量）的最佳直线。多元线性回归是线性回归的扩充，其中涉及的属性是多于两个，并且数据拟合到一个多维曲面。

离群点分析（outlier analysis）

可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地，落在簇集合之外的值被称为离群点。

2.2.2 偏差检测

数据清理过程的第一步是偏差检测。

元数据
字段过载
根据唯一性规则、连续性规则和空值规则考察数据
数据清洗工具
数据审计工具
数据迁移工具
ETL (Extraction / Transformation / Loading) 工具

2.3 数据集成

数据挖掘经常需要数据集成 —— 合并来自多个数据存储的数据。

2.3.1 实体识别问题

数据分析任务多半设计数据集成。数据集成将多个数据源中的数据合并，存放在一个一致的数据存储中，如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。

在数据集成时，有许多问题需要考虑。模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能“匹配”？这设计实体识别问题。

2.3.2 冗余和相关分析

冗余是数据集成的另一个重要问题。
冗余
- 一个属性如果能由另一个或另一组属性“导出”，则这个属性可能是冗余的
- 属性或维命名不一致可能导致结果集中的冗余
有些冗余可被相关分析检测到：给定两个属性，这种分析可以根据可用的数据，度量一个属性能在多大程度上蕴涵另一个。

相关分析

对于标称属性，使用 $\chi ^2$ (卡方)检验。
对于数值属性，使用 相关系数 和 协方差 ，它们都评估一个属性的值如何随另一个变化

上一页Data_Preprocessing 下一页认识数据

最后更新于5年前

这有帮助吗？