预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

大数据与社会科学概论刘涛雄大纲大数据概论大数据得主要技术手段数据分析技术:机器学习概论“大数据社会科学”何为大数据?(BigData)特点:大。超过常用软件工具得收集、管理与处理数据得能力范围得数据集。但就是,也不就是简单地以规模论大,而就是相对得复杂程度。如果以现在计算机得能力:针对简单查询(如关键词查询),数据量为TB或PB就是即可称为大数据。针对复杂查询(如数据挖掘),数据量为GB至TB时即可称为大数据。大数据特性:4VVolume:体量巨大Velocity:速度极快Variety:模态多样Veracity:真伪难辨无所不在得数据生成源:全社会(发言、网状结构)、网络用户(浏览行为、搜索行为)、管理者(发票、医院记录、交通检测)、商业机构(手机记录、信用卡记录、保险记录、商场购物记录)、健康数据(电子医疗设备记录、医疗检测)、卫星信息系统(物联网)我们都有哪些数据?文本信息中文分词多媒体时间序列(高频数据)空间数据网页数据社会网络大数据与社会科学第一层次:基于数据得知识发现(KnowledgeDiscoverinDatabase,KDD)有理论假设得好处:可以节省信息量,缩小搜寻范围。当数据获取与处理能力足够强,KDD也能体现其优势。例子:HedonometricsandTwitterHowObama’sDataCrunchershelpedhimwin活跃领域:数据挖掘(datamining)政治学、经济学、社会学、心理学、管理学如:priceindex预测(forcasting)与现测(nowcasting)如:对googletrends得利用社会计算(putationalSocialSciences)putationabout(of)thepeople:如社会情感putationforthepeople:如信任计算、风险计算putationbythepeople:如主体参与、群体智能大数据得主要技术手段关键技术Hadoop:分布式管理平台来自Google得设计思想:一个分布式文件系统与并行执行环境(HDFS与MapReduce)方便用户处理海量数据云计算机器学习计算机针对特定任务(Tasks)与效果评价指标(PerformanceMeasurement),基于已有经验(Experiences),自动地不断改进算法,并随着E得扩大不断提高对T得执行效果(P)T:任务P:效果评价E:经验集(训练集)训练与预测最佳预测:Bias-Variance平衡一般来说,模型越复杂,变量越多,Bias2越低,但var(f(x))越大所以对于模型选择,一个很重要得准则就是降维。大数据对社会科学得机遇与挑战机遇数据来源极大拓展获取信息速度大大加快计算能力极大增强核心:技术、数据+人挑战数据太多维数灾难?数据太乱结构化与非结构化生成机制难掌握(DGP,DataGeneratingProcess)谁就是总体?谁在创造数据?总体创造数据得动机与行为机制就是什么?官方统计还有存在必要吗?结构化数据与非结构化数据社会科学:因果与相关社会科学得核心:因果解释自然科学与社会科学:可控实验与自然实验困难:反向因果与共因变量统计学:从相关到因果大数据:相关易于因果,相关重于因果?大数据对研究还有意义吗?大数据同样会促进“因果解释”社会科学得研究范式:假设检验(演绎法)大数据:寻找相关(归纳法)信息增加与避免错误因果政策:预测与因果我们就是不就是过于重视“因果”?关键:数据生成机制就是否稳定?两类政策问题:“降雨术问题”与“雨伞”问题降雨术:因果(干预问题)雨伞:预测(对策问题)但任何一个政策措施,其影响可能就是十分复杂得,有能被解释得部分也有不能被解释得部分。互联网金融简介对中国得贡献征信财富管理P2P大数据要与先进得方法一起使用一、传统金融业务传统方式(支付、个人理财)放在互联网上支付二、互联网与金融得化学反应、支付体系互联网征信P2P贷款众筹网络虚拟支付功能0、5%费率资源分配投融资渠道不畅,超过30%中国人储蓄率在20%以上征信得分类资产(个人企业)就是否诚信(个人)中国征信市场得现状人民银行得征信系统有8亿数据(活跃得有3亿)25%得人有征信数据美国有70%得人电商有个人消费数据(大概有3亿)征信与消费得结合租车4W+1H5P5C+1S支付数据——财务关系消费数据——消费习惯金融数据——信用记录社交数据——个人特征行为数据——P2P点对点线上获取信息与资金流程:获取借贷列表与