预览加载中,请您耐心等待几秒...
在线预览结束,喜欢就下载吧,查找使用更方便
如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
。00-据挖掘档案人员应掌握的基本工具郑州航空工业管理学院信息科学系刘国华郝伟斌——摘要:文章揭示了在未来数字就是说,数字档案馆能够把数据存其它信息站点。那么,档案人员应档案馆中档案人员进行信息服务的储在多个站点中,利用者只须一个如何进行信息服务?档案人员须掌一种方式,论述了数据挖掘的基本简单的操作就可从这些站点中搜索握什么先进技术工具为利用者服原理和方法以及与档案工作的关系。信息。数字档案馆是传统档案馆在务?这是当前档案界应该关注的重关键词:数据挖掘、档案工作,信息时代的发展,它不但包含了传要问题。信,服务统档案馆的功能,还提供综合的信2.数据挖掘1.引育息访问服务。2.1数据挖掘的定义数字档案馆(Digital但是,从网络技术角度来看,数由于数据挖掘的历史较短,目Archives)是档案界近年提出的新字档案馆与其它WEB信息源没有前还没有一个统一的定义,人们从概念。一般认为数字档案馆是建立两样,它们都是建立在INTERNET不同角度提出了多种数据挖掘的定在现代信息技术普遍应用的基础上,上的信息站点。从利用者的角度来义,例如:利用数字化手段,以综合档案信息看,他们关心的是从INTERNET上SAS研究所(1997):“在大量资源为处理核心,对数字档案信息获得信息和知识,但是要从成千上相关数据基础之上进行数据探索和资源进行管理,通过高速宽带通信万的WEB信息站点中检索到有用建立相关模型的先进方法。网络设施相连接和提供利用,实现的信息是不容易的,有时甚至是不Bhavam(1999):“使用模式识资源共享的超大规模、分布式数字可能的,更何况信息的索要者往往别技术、统计和数学技术在大量信息系统。数字档案馆是一个标准没有多少时间在茫茫的数据海洋中的数据中发现有意义的新关系、模的电子信息基础设施,它采用分布漫游。我们知道在数字档案馆中,档式和趋势的过程。数据存储,利用者可以通过各种链案人员是信息专家,他们是信息组Handetal(2000):“数据挖接和操作在一个较大的地域范围内织者、信息生产者、信息服务者和掘就是在大型数据库中寻找有意搜索和检索出自己所需的信息,而信息管理者。正是通过档案人员的义、有价值信息的过程。且整个操作对利用者是开放的。也信息服务活动使数字档案馆有别于我们认为数据挖掘也可以称为42航空档案案论坛知识发现(KnowledgeDiscovery发生。关联分析的重点在于快速发(1)传统统计方法:①抽样技inDatabase,简称KDD),是从大现那些有实用价值的关联发生的事术:我们面对的是大量的数据,对量数据中抽取有意义的、隐含的、件。其主要依据是事件发生的概率所有的数据进行分析是不可能的也以前未知的并有潜在使用价值的知和条件概率应该符合一定的统计意是没有必要的,因此必须在相关理识的过程。义。论的指导下进行合理的抽样。②多2.2致据挖掘的功能对于结构化的数据,以客户的购元统计分析:因子分析,聚类分析(1)分类:按照分析对象的属买习惯数据为例,利用关联分析,可等。③统计预测方法,如回归分析,性、特征,建立不同的组类来描述以发现客户的关联购买需要。例如,时间序列分析等。事物。例如:某企业根据客户档案一个开设储蓄账户的客户很可能同时(2)可视化技术:用图表等方将客户分成了不同的类别,现在就进行债券交易和股票交易,购买纸尿式把数据特征直观地表述出来,如可以根据这些来区分新的客户,以裤的男顾客经常同时购买啤酒等。利直方图等。可视化技术面对的一个采取相应的合作方案。用这种知识可以采取积极的营销策难题是高维数据的可视化。(2)聚类:聚类分析是根据物略,扩展客户购买的产品范围,吸(3)决策树:利用一系列规则以类聚的原理,将本身没有类别的引更多的客户。通过调整商品的布划分,建立树状图,可用于分类和样本聚集成不同的组,并且对每一局便于顾客买到经常同时购买的商预测。常用的算法有CART、个这样的组进行描述的过程。其主品,或者通过降低一种商品的价格CHAID、ID3、C4.5、C5.0等。要依据是聚到同一个组中的样本应来促进另一种商品的销售等。(4)神经网络:模拟人的神经该彼此相似,而属于不同组的样本(4)预测:把握分析对象发展元功能,经过输入层、隐藏层、输应该足够不相似。的规律,对未来的趋势做出预见。预出层等,对数据进行调整、计算、最仍以客户关系管理为例,利用测与分类类似,但预测是根据样本后得到结果,用于分类和回归。聚类技术,根据客户的个人特征以的已知特征估算某个连续类型的变(5)遗传算法:基于自然进化及消费数据,可以将客户群体进行量的取值的过程,而分类则只是用理论,模拟基因联合、突变、选择细分。例如,可以得到