如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
几种常用的异常数据挖掘方法在数据挖掘的过程中,数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致,这些数据对象被称为异常点,对异常点的查找过程称为异常数据挖掘,它是数据挖掘技术中的一种.异常数据挖掘又称孤立点分析、异常检测、例外挖掘、小事件检测、挖掘极小类、偏差检测等.孤立点可能是“脏数据”,也可能是与实际对应的有意义的事件.从知识发现的角度看,在某些应用里,那些很少发生的事件往往比经常发生的事件更有趣、也更有研究价值,例外的检测能为我们提供比较重要的信息,使我们发现一些真实而又出乎预料的知识.因此,异常数据的检测和分析是一项重要且有意义的研究工作。异常数据挖掘的简介聚类数据集异常点数据挖掘的任务可以分成两个子问题:(1)给出已知数据集的异常点数据的定义;(2)使用有效的方法挖掘异常点数据.对数据模式的不同定义,以及数据集的构成不同,会导致不同类型的异常点数据挖掘,实际应用中根据具体情况选择异常数据的挖掘方法.基于统计的方法不一致性检验是如何进行的?目前利用统计学研究异常点数据有了一些新的方法,如通过分析统计数据的散度情况,即数据变异指标,来对数据的总体特征有更进一步的了解,对数据的分布情况有所了解,进而通过数据变异指标来发现数据中的异常点数据.常用的数据变异指标有极差、四分位数间距、均差、标准差、变异系数等等,变异指标的值大表示变异大、散布广;值小表示离差小,较密集.用统计学的方法检测异常点数据的有效性如何呢?0目前比较成熟的基于距离的异常数据挖掘的算法有:基于单元的算法(cell-based):在该方法中,数据空间被划为边长等于d/(2k)的单元.每个单元有两个层围绕着它.第一层的厚度是一个单元,而第二层的厚度是[2k-1].该算法逐个单元地对异常点计数,而不是逐个对象地进行计数.对于一个给定的单元,它累计三个计数———单元中对象的数目(cell_count),单元和第一层中对象的数目(cell_+_1_cell_count),单元和两个层次中的对象的数目(cell_+_2_cell_count).该算法将对数据集的每一个元素进行异常点数据的检测改为对每一个单元进行异常点数据的检测,它提高了算法的效率.它的算法复杂度是O(ck+n),这里的c是依赖于单元数目的常数,k是维数.它是这样进行异常检测的:若cell_+_1_cell_count>M,单元中的所有对象都不是异常;若cell_+_2_cell_count<=M,单元中的所有对象都是异常;否则,单元中的数据某一些可能是异常.为了检测这些异常点,需要逐个对象加入处理.基于距离的异常数据挖掘方法要求用户设置参数p和d,而寻找这些参数的合适设置可能涉及多次试探和错误.基于偏差的方法(1)异常集:它是偏离或异常点的集合,被定义为某类对象的最小子集,这些对象的去除会产生剩余集合的相异度的最大减少.(2)相异度函数:已知一个数据集,如果两个对象相似,相异函数返回值较小,反之,相异函数返回值较大;一个数据子集的计算依赖于前个子集的计算.(3)基数函数:数据集、数据子集中数据对象的个数.(4)光滑因子:从原始数据集中去除子集,相异度减小的程度,光滑因子最大的子集就是异常点数据集.特点基于密度的方法(1)对象p的k-距离(k-distance):对任意的自然数k,定义p的k-距离(k-distance(p)),为p和某个对象o之间的距离,这里的o满足:至少存在k个对象o′∈D\{p},使得d(p,o′)≤d(p,o),并且至多存在k-1个对象o′∈D\{p},使得d(p,o′)<d(p,o).(2)对象p的k-距离邻域(Nk-distance):给定p的k-距离k-distance(p),p的k-距离邻域包含所有与p的距离不超过k-distance(p)的对象.(3)对象p相对于对象o的可达距离:给定自然数k,对象p相对于对象o的可达距离为reach-distk(p,o)=max{k-distance(o),d(p,o)}.(4)对象p的局部可达密度(LocalReachableDistance):对象p的局部可达密度为对象p与它的MinPts-邻域的平均可达距离的倒数.对象p的局部异常因子表示p的异常程度,局部异常因子愈大,就认为它更可能异常;反之则可能性小.簇内靠近核心点的对象的算局部异常点因素LOF接近于1,那么不应该被认为是局部异常.而处于簇的边缘或是簇的外面的对象的LOF相对较大.为了更好地理解,先看一个2-D数据集的例子,如图4所示,该数据集是一个2维数据集,包含502个对象,在聚类C1中有400个对象,在聚类C2中有100个对象,此外还有2个特殊的对象O1和O2,该例中,可以看出C2形成的聚类要比C1稠密.高维数据的方法定义稀疏系数s(