预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10
亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
基于weka得数据分类分析实验报告1实验基本内容本实验得基本内容就是通过使用weka中得三种常见分类与聚类方法(决策树J48、KNN与k—means)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试与评价,找出各个模型最优得参数值,并对三个模型进行全面评价比较,得到一个最好得分类模型以及该模型所有设置得最优参数。最后使用这些参数以及训练集与校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。2数据得准备及预处理2、1格式转换方法(1)打开“data02、xls”另存为CSV类型,得到“data02、csv”.(2)在WEKA中提供了一个“ArffViewer”模块,打开一个“data02、csv"进行浏览,然后另存为ARFF文件,得到“data02、arff”。。3、实验过程及结果截图3、1决策树分类(1)决策树分类用“Explorer"打开数据“data02、arff”,然后切换到“Classify”.点击“Choose",选择算法“trees—J48”,再在“Testoptions"选择“Cross-validation(Flods=10)”,点击“Start”,开始运行。系统默认trees—J48决策树算法中minNumObj=2,得到如下结果===Summary===CorrectlyClassifiedInstances2388、4615%IncorrectlyClassifiedInstances311、5385%Kappastatistic0、7636Meanabsoluteerror0、141Rootmeansquarederror0、3255Relativeabsoluteerror30、7368%Rootrelativesquarederror68、0307%TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0、824010、8240、9030、892N10、1760、7510、8570、892YWeightedAvg、0、8850、0610、9130、8850、8870、892===ConfusionMatrix===ab<-—classifiedas143|a=N09|b=Y使用不同得参数准确率比较:minNumObj2345CorrectlyClassifiedInstances23(88、4615%)22(84、6154%)23(88、4615%)23(88、4615%)由上表,可知minNumObj为2时,准确率最高。根据测试数集,利用准确率最高得模型得到得结果:分析说明:在用J48对数据集进行分类时采用了10折交叉验证(Folds=10)来选择与评估模型,其中属性值有两个Y,N。一部分结果如下:CorrectlyClassifiedInstances2388、4615%IncorrectlyClassifiedInstances311、5385%===ConfusionMatrix===ab<--classifiedas143|a=N09|b=Y这个矩阵就是说,原来就是“Y”得实例,有14个被正确得预测为“Y”,有3个错误得预测成了“N”。原本就是“NO”得实例有0个被正确得预测成为“Y",有9个正确得预测成了“N”。“14+3+0+9=26"就是实例得总数,而(14+9)/26=0、884615正好就是正确分类得实例所占比例.这个矩阵对角线上得数字越大,说明预测得越好。(2)K最近邻分类算法用“Explorer"打开数据“data02、arff",然后切换到“Classify”.点击“Choose”,选择算法“lazy-IBk”,再在“Testoptions”选择“Cross—validation(Flods=10)”,点击“Start”,开始运行。训练结果:系统默认lazy—IBkK最近邻分类算法中KNN=1,得到如下结果===Summary===CorrectlyClassifiedInstances2076、9231%IncorrectlyClassifiedInstances623、0769%Kappastatistic0、4902Meanabsoluteerror0、252Rootmeansquarederror0、4626Relativeabsoluteerror54、9136%Rootrelativesquarederror96、694%TotalNumberofInsta