预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共45页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

本科毕业设计(论文)基于Action的用户行为分析大数据平台Action-baseduserbehavioranalyticsbigdataplatform院(系)计算机科学与技术学院专业软件工程班级16软件1班学号16210120101学生姓名李文辉指导教师苏康提交日期2020年3月1日内容摘要电商平台作为当前最受欢迎,热度最高的平台,流量高,数据量大,数据种类多本文利用了逆向工程思维从现在热度高、流量高、数据量大的各个电商网站平台,对用户行为收集js脚本进行分析,并从多方面对脚本采集的数据进行判断和推测其具体内容,并将其与现有的系统数据进行整合,存入对应的文件系统等待处理,项目最后通过一系列的计算、分析,并得到分析和统计结果以可视化方式进行展示。本文主要设计并实现了一款基于Action的数据分析大数据平台,主要实现内容包括大数据的获取、数据仓库设计、数据的分析管理和数据可视化。其中数据获取部分包括将数据从前置机接入到数据仓库,使用MapReduce进行处理,存放进HDFS文件系统,再使用Hive统一建库,实现数据仓库的初步管理,主要实现了数据全量接入功能、数据对标功能、目录规范命名功能、表路径及名称命名规范功能、专题库建设功能、数据标准化功能。然后基于标准库的数据,进行了数据分析,数据分析部分主要包括session粒度的报表抽取功能、热门商品统计功能、流量最高人物session抽取功能、活跃用户统计功能、黑名单拦截功能、区域热门商品统计功能、页面单跳转率统计功能等。最后将数分析后的据进行数据可视化,主要利用javaweb技术实现了对数据库分析后的数据进行可视化的功能。本文的主要创新点为一体化的数据分析过程,从数据治理到数据分析、挖掘,最后进行数据可视化。数据治理采用全新的数据仓库分层结构、数据挖掘实现了分布式的数据分析算法,可视化采用echatrs+springboot为主要结构的可视化工具进行数据可视化。任务需求发送给管理人员,管理人员将任务参数封装为JSON格式数据上传至数据库,然后调用我们已经封装好的Spark-SubmitJar包,任务就会正式在我们的分布式环境下运行,直到任务结束,可以返回数据库查看确认,最后就可以在前端可视化页面上看见效果了。该项目是一个启发性的项目,不具有公共使用性,需要根据一线实际数据进行对应的调整,但是却具有大数据分析的标志性作用。关键词:Spark;Hadoop;大数据分析;数据仓库;可视化AbstractAsthemostpopularandhottestplatform,e-commerceplatformhashighflow,largeamountofdataandmanykindsofdataInthispaper,weusethereverseengineeringthinkingtoanalyzetheJSscriptofuserbehaviorcollectionfromvariouse-commercewebsiteplatformswithhighheat,highflowandlargeamountofdata,judgeandspeculatethespecificcontentofthescriptcollectiondatafromvariousaspects,integrateitwiththeexistingsystemdata,storeitinthecorrespondingfilesystemforprocessing,andfinallythroughaseriesofprojectsTheresultsofanalysisandstatisticsaredisplayedinavisualway.Thispapermainlydesignsandimplementsanactionbaseddataanalysisbigdataplatform,whichmainlyincludesbigdataacquisition,datawarehousedesign,dataanalysismanagementanddatavisualization.Thedataacquisitionpartincludesdataaccessfromthefront-endcomputertothedatawarehouse,MapReduceprocessing,storageintotheHDFSfilesystem,andthenusehivetobuildaunifieddatabasetorealizethepreliminarymanagementofthedatawarehouse,mainlyre