预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10
亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
第三章数据预处理¾为什么要预处理数据¾数据清理数据预处理方法¾数据集成和变换¾数据规约¾离散化和概念分层¾小结3.1为什么要预处理数据数据挖掘技术分析的数据有许多问题:¾数据是不完整的:有些属性缺少属性值,或仅包含聚集数据;¾数据是含噪声的:包含错误或存在偏离期望的孤立点值;¾数据的不一致性和冗余:同一概念的属性在不同的数据库中可能具有不同的名字而导致不一致性和冗余。3.1为什么要预处理数据3.1为什么要预处理数据¾数据清理(datacleaning)例程通过填写空缺的值,平滑噪声数据,识别、删除孤立点,并解决不一致来“清理”数据。脏数据能使挖掘过程陷人混乱,导致不可靠的输出。3.1为什么要预处理数据¾数据变换(datatransformation):将要分析的数据规格化,转换成适合于挖掘的形式。¾数据归约(datareduction):得到数据集的压缩表示。¾数据集成(dataintegration)在分析中包含来自多个数据源的数据。将涉及集成多个数据库、数据立方体或文件。3.2数据清理¾现实世界的数据一般是脏的、不完整的和不一致的,数据清理试图填充空缺的值,识别孤立点、消除噪声并纠正数据中的不一致。¾本节主要针对空缺值、噪声数据、不一致数据,研究数据清理的基本方法。3.2.1空缺值¾为属性添上空缺的值有如下方法:i.忽略元组:如果元组有多个属性缺少值。ii.人工填写空缺值:一般地说,该方法很费时,并且当数据集很大、缺少很多值时,该方法可能行不通。3.2.1空缺值iii.使用一个全局常量填充空缺值:将空缺的属性值用同一个常数(如‘‘Unknown”或负无穷大)替换。如果空缺值都用“Unknown”替换,挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“Unknown”。因此,尽管该方法简单,我们并不推荐它。3.2.1空缺值使用属性的平均值填充空缺值:例如,假定AllElectronics顾客的平均收入为$28000,则使用该值替换income中的空缺值。iv.使用与给定元组属同一类的所有样本的平均值:如:如果将顾客按credit_risk分类则用具有相同信用度的顾客的平均收入替换income中的空缺值。3.2.1空缺值vi.使用最可能的值填充空缺值:可以用回归、判定树归纳等确定。如利用你的数据集中其他顾客的属性,可以构造一棵判定树,来预测income的空缺值。3.2.2噪声数据¾噪声(noise)是数据中的随机错误或偏差。¾可以用以下的数据平滑技术去掉噪声:1.分箱(binning):通过考察“邻居”(即周围的值)来平滑存储数据的值。存储的直被分布到一些“桶”或箱中。局部平滑。PRICE的排序后数据(美圆):4,8,15,21,21,24,25,28,31等深分箱:箱1:4,8,15箱2:21,21,24箱3:25,28,31等深分箱:箱1:4,8,15箱2:21,21,24箱3:25,28,31按箱中值平滑:箱1:8,8,8箱2:21,21,21箱3:28,28,28等深分箱:箱1:4,8,15箱2:21,21,24箱3:25,28,31按箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29还可按箱边界平滑分箱(binning):一般来说,宽度越大,平滑效果越大。箱也可以是等宽的,每个箱值的区间范围是个常量。[0,100],[100,200],…,[900,1000]分箱也可以作为一种离散化技术使用。3.2.2噪声数据2.聚类(clustering):孤立点可以被聚类检测。聚类将类似的值组织成群或“类”。直观地看,落在聚类集合之外的值被视为孤立点。3.2.2噪声数据3.计算机和人工检查结合:计算机自动判别孤立点,并输出到一个表中。人可以审查表中的模式,识别真正的垃圾。在其后的数据挖掘应用时,垃圾模式将由数据库中清除掉。3.2.2噪声数据4.回归(regression):通过让数据适合一个函数(如回归函数)来平滑数据。线性回归涉及找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。多元线性回归是线性回归的扩展,它涉及多于两个变量,数据要适合一个多维面。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。3.2.2噪声数据¾许多数据平滑的方法也是离散化的数据归约方法。分箱技术、判定树归纳、概念分层等。