ImageVerifierCode 换一换
格式:PPT , 页数:36 ,大小:1.29MB ,
资源ID:322706     下载积分:7.18 金币    免费下载
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.aqrzj.com/docdown/322706.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据采集与清洗(36页).ppt)为本站会员(人民至上)主动上传,安全人之家仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知安全人之家(发送邮件至316976779@qq.com或直接QQ联系客服),我们立即给予删除!

大数据采集与清洗(36页).ppt

1、数据采集与清洗,2019|02|15,周 乐,什么是大数据,大数据处理流程,大数据的主要特征,大数据采集的概念,大数据采集应用,1,什么是大数据,淘宝推荐,依据购物行为偏好引荐,依据你最近的阅读行为和消费行为进行引荐,依据你用的设备往来不断猜特征.,依据时节改变进行引荐,2014-03,2015-08,2017-10,2016-03,2018,大数据工作首先写入政府工作报告,十三五规划纲要提出实施国家大数据战略,2018年政府工作报告提出:实施大数据发展行动,注重用互联网、大数据等提升监管效能,国务院发布促进大数据发展的行动纲要,十九大提出推动大数据战略,与实体经济深度融合,行业现状与前景,2

2、019年人社部拟最新发布15项新职业,1.大数据工程技术人员2.云计算工程技术人员3.人工智能工程技术人员4.物联网工程技术人员5.,什么是大数据,大数据(Big Data)是指无法使用传统和常用的软件技术和工具在一定时间内完成获取、管理和处理的数据集,大数据的主要特征,大数据主要特征,Volume,Velocity,Variety,Veracity,真实性(Veracity),即追求高质量的数据。,容量大(Volume),指大规模的数据量,并且数据量呈持续增长趋势。,速度快(Velocity),指的是数据被创建和移动的速度。,种类多(Variety),指数据来自多种数据源,数据种类和格式。,

3、Value,价值密度低(Value),指随着数据量的增长,数据中有意义的信息却没有成相应比例增长。,3,大数据处理流程,大数据处理流程,数据预处理 就是将采集来的数据从多种数据库导入到大型的分布式数据库中(目前主要是hfds或hive),并同时做一些简单的清洗和预处理工作。,数据统计分析 就是对上面已经完成的存储在大型分布式数据库中的数据进行归类统计,可以满足一般场景的分析需求。,数据挖掘 是对数据进行基于各种算法的分析计算,从而起到预测的效果,实现一些高级别数据分析的需求。,数据采集 就是利用多种数据库(关系型,NOSQL)去存储不同来源的数据。,数据展示 就是对以上处理完的结果进行分析,或

4、者形成报表。,大数据采集的概念,大数据采集的概念,3、大数据采集技术方法 大数据采集技术就是对数据进行 ETL 操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值。ETL指的是Extract-Transform-Load,也就是抽取、转换、加载。抽取-从各种数据源获取数据 转换-按需求格式将源数据转换为目标数据 加载-把目标数据加载到数据仓库中,2、数据采集与大数据采集的区别 传统数据采集:来源单一,数据量相当小;结构单一;关系数据库和并行数据库 大数据的数据采集:来源广泛,数量巨大;数据类型丰富;分布式数据库,1、什么是数据采集 数据采集就是数据获取,数据源主要分为线上数据和内容数

5、据,大数据采集系统,1.日志采集系统(Apache Flume、Scribe),3.数据库采集系统(关系型、nosql等各种数据库),2.网络数据采集系统(Scrapy 框架、Apache Nutch),5,大数据采集应用,技能准备,Python基础,Linux操作系统基本操作,数据库基础(SQL语句操作),环境准备,Python,Jdk(java环境),数据库(mysql),Thanks,YOUR TITLE,Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.,N

6、othing is difficult to the man who will try.Nothing is difficult to the man who will try.,Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.,Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.,YOUR TITLE,Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.Nothing is difficult to the man who will try.,Nothing is difficult to the man who

copyright@ 2010-2024 安全人之家版权所有

经营许可证编号:冀ICP备2022015913号-6