预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基本信息姓名:籍贯:性别:男学历:本科年龄:27岁专业:电子信息工程工作时间:4年毕业院校:电话:英语水平:CET-4居住地:北京海淀区邮箱:求职意向期望职位:hadoop、spark开发工程师期望地点:北京期望薪资:面议技术能力掌握:Spark熟读spark源码,深入理解spark工作机制。掌握spark任务的执行流程熟练使用scala语言编程掌握spark-streaming熟悉Elasticsearchlogstash理解hadoop的分布式文件系统,掌握mapreduce原理,实现编码熟悉hive的工作原理,了解数据仓库建立,完成对数据主题抽取和多维分析熟练使用sqoop工具,实现非关系型数据库与关系型数据库表数据互导理解Hbase的存储原理,Hbase存储架构,实现数据的毫秒检索掌握redis内存数据库的基本原理,实现数据的毫秒查询掌握kafka、flume数据采集工具的原理,实现流式数据的过滤和分析理解Impala的工作原理,对海量数据快速查询掌握使用scala语言编程,理解Spark掌握SparkStreaming流式处理技术,对流式数据在线处理分析以及对出现的问题进行排查,性能调优掌握利用SparkSQL进行数据处理、查询、统计能阅读英文技术文档。具备良好的文档写作能力熟练使用Linux操作系统,编写shell脚本工作经历2014.04--至今北京思特奇信息技术股份有限公司Hadoop开发工程师2012.08--2014.03中科软科技股份有限公司Java兼Hadoop开发工程师项目经验项目一:联通大数据项目项目名称:移动终端上网数据实时分析处理系统开发环境:IDEA+eclipse+maven+jdk系统架构:hadoop+zookeeper+flume+Spark+hive+mysql+sqoop+Oracle项目描述:数据源端通过ftp服务将联通234G用户上网记录,通过以文件的形式,实时传输到ftp服务器上的目录下,每天产生的数据量为3T左右。利用flume的spoolSource,对该目录进行实时数据监控,然后采用flume与sparkStreaming对接,sparkStreaming通过设置每个批次的间隔时间,将流式计算分解成一系列短小的批处理作业,实时的交给sparkStreaming处理,对每一条信息中的手机号码进行手机号码加密,并且去掉对应的一些字段信息。将处理后的数据保存在HDFS上,然后在通过ftp客户端,写入到共享平台上,提供合作厂商。对保存在HDFS上的数据,利用hive建立外部分区表,通过设置定时任务,每天定时的执行脚本,分析出用户每天的上网行为,利用sqoop工具将分析统计的结果导入到Oracle中,生产报表,供前端展现。责任描述:1.搭建flume采集数据服务器,实现flume自定义拦截器,满足业务需求。2.flume整合sparkStreaming(推模式与拉模式),分析2种模式的优缺点,选择比较稳定可靠的整合模式3.开发sparkStreaming代码,对数据进行接受分析处理。4.对共享平台上的数据,开启多线程对小文件进行实时合并。5.负责spark集群处理的优化,处理线上出现的一些错误信息,让系统处于稳定,高可用状态。6.写定时脚本任务,通过建立hive表对数据进行分析统计。项目二:联通大数据项目项目名称:信令数据实时分析处理系统开发环境:IDEA+eclipse+maven+jdk系统架构:hadoop+zookeeper+Spark+hive+mysql+sqoop+Oracle项目描述:数据源端的信令数据,包含了联通用户11种业务类型,对应的11张表的数据信息,通过socket协议将信令数据传输给sparkStreaming,sparkStreaming首先解析出每张表的数据信息,然后针对每张表的数据信息,对其手机号加密处理,截取所需要的字段,并通过信息字段lacci(基站信息)实时关联码表打标签,不同的合作厂商的接入,会有不同的码表文件。最后将处理好的数据保存到hadoop上,并且通过ftp的client,实时的写到共享平台上,供合作厂商取走使用。同时每天定时对hadoop上的数据利用hive建立外部分区表,每天定时的执行脚本,统计分析出联通用户每天的上网行为,利用sqoop工具将分析统计的结果导入到Oracle中,生产报表,供前端展现。责任描述:1.根据信令数据11张表的业务规则,理清楚满足业务需求的字段的下标。2.开发sparkSteaming流处理代码,解析出11张表数据信息3.对表数据中的信息字段lacci与码表关联,对数据进行实时打标签4.对共享平台上以及