预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

聚类算法在研究生论文质量分析中的应用聚类算法在研究生论文质量分析中的应用关键词:算法,质量,分析,研究生论文聚类算法在研究生论文质量分析中的应用介绍:一、引言随着我国经济社会发展进入新常态,研究生教育改革发展也进入了一个新的历史时期,不断提升研究生教育质量是新时期研究生教育的核心任务。[1]2017年1月刘延东副总理在国务院学位委员会第三十三次会议上指出,质量是研究生教育的生命线,要加强质量保障体系建设,强化培养单位质量意识,抓好质量监控,确保研聚类算法在研究生论文质量分析中的应用详情:[:www.lwlwlw.com]一、引言随着我国经济社会发展进入新常态,研究生教育改革发展也进入了一个新的历史时期,不断提升研究生教育质量是新时期研究生教育的核心任务。[1]2017年1月刘延东副总理在国务院学位委员会第三十三次会议上指出,质量是研究生教育的生命线,要加强质量保障体系建设,强化培养单位质量意识,抓好质量监控,确保研究生教育质量。研究生学位论文是研究生教育的总结性成果,是培养研究生科研能力、创新能力和实现培养目标的重要环节,也是衡量研究生教育水平和质量的重要指标。数据挖掘技术可以从大量的数据中发现隐藏的模式与知识,目前已成功应用在金融、医疗和电子商务等广泛的领域,近年来,在教育信息化、远程教育及在线学习系统等应用的带动下,教育数据挖掘开始受到越来越多的研究者的关注。[2]在大数据时代,对教育数据进行挖掘分析可以得到教育数据中的隐含信息,可以帮助发现和解决教育中的各类问题,如为管理人员提供辅助决策依据,帮助教师改进课程、提升教学效果以及提高学生的学习效率等。本文基于数据挖掘中的聚类算法,对福州大学2016学年毕业的1091位研究生的学位论文相关数据进行聚类分析与挖掘,找出影响学位论文质量的主要因素,为提高研究生学位论文质量提供参考依据。二、聚类分析技术聚类分析[3]是一种重要的数据分析方法,就是将数据对象分成类或簇的过程,使同一个簇中的对象之间具有较高的相似性,而不同簇中的对象具有较大的差异性。聚类分析数据挖掘过程可概括为数据准备、聚类分析及结果的解释和评估三部分。目前,聚类算法[4-5]大致分为层次聚类算法、划分式聚类算法、基于密度和网格的聚类算法以及其他聚类算法。在众多的聚类算法中,K均值聚类(K-means)是最经典、最方便快速的算法之一。K均值聚类算法的过程概述如下:(1)从数据集D中任意选择K个对象作为初始簇中心;(2)Repeat;(3)根据簇中对象的均值,将每个对象(再)指派到最相似的簇;(4)更新簇均值,即计算每个簇中对象的均值;(5)Until不再发生变化。三、聚类算法在研究生论文质量分析中的应用1.数据的选取及预处理福州大学的研究生教育管理信息系统记录了研究生从入学到毕业全过程的培养信息,为有效进行研究生论文数据聚类分析提供了基础。该系统数据库主要包括学生基本信息、导师信息、课程信息、成绩信息、奖学金信息、开题情况、发表论文信息、论文送审成绩以及论文答辩成绩等数据表,但是这些数据表涉及很多属性,哪些字段属性被用于聚类算法,直接影响到最终的聚类效果。本文目标是对研究生论文质量进行聚类分析,经查阅相关论文,论文质量的主要影响因素包括研究生选拔、研究生自身素质、导师因素、科研条件、培养管理机制、学位论文的评审与答辩制度等。[6-7]因此,我们选取了学号、入学方式、本科毕业学校、导师类别、课程综合成绩、获奖情况、论文选题来源、发表论文情况、论文送审成绩、答辩成绩等字段作为挖掘的属性。为了让数据符合挖掘要求和提高挖掘算法的效率,对数据使用下列规则进行预处理。(1)学生基本信息处理,将属性入学方式分为推免生和统考生,将属性本科毕业学校分为重点院校和普通院校,将属性研究生导师类别分为博硕士生导师和硕士生导师。(2)课程学习成绩处理,每个研究生根据研究方向的不同可能选修不一样的课程,为了公平衡量研究生学习成绩,我校定义了研究生综合成绩计算公式,将根据公式计算的综合成绩进行分段:85以上为“优“,75~85为“良“,65~75为“中“,65以下为“差“.(3)奖学金信息处理,分为获得奖学金和未获奖学金并分别标记为是和否;论文选题来源信息处理,研究生学位论文选题可能来自导师不同级别的科研项目或自选课题,为便于聚类把论文选题来源分为国家级项目、省部级项目、其他项目和其他。(4)发表论文情况,根据研究生发表论文的刊物级别及数