1、大数据前沿技术与应用场景,大数据前沿技术,1,2,大数据应用场景,大数据的引擎,软件改变世界,软件是大数据的驱动力,Hadoop十年,大数据技术的关键历史进程,2000,2003,2004,2006,2008,2009,Google File System,Google MapReduce,Google Big Table,Hadoop开源,HBase开源,Hive,2010,MongoDB开源,Spark开源,2011,2012,2013,Hadoop1.0(HDFS、MapReduce),Storm初版,阿里巴巴 RocketMQ,Hadoop2.0(YARN),2016,Apache R
2、ocketMQ,2017,2018,Hadoop3.0,Storm1.0,2015,HBase1.0,2014,Apache Spark,大数据常用的关键技术,海量数据存储技术,分布式文件系统,是Hadoop项目的核心子项目,面向列的开源数据库,非常适合非结构化数据,是非关系数据库中功能最丰富,最像关系型的,拆分,复制,文件存储,列式存储,分区存储,文档存储,employees:firstName:Bill,lastName:Gates,firstName:George,lastName:Bush,其他存储技术,分布式索引技术,百亿级数据秒级查询。,分布式消息队列,融峰缓冲的必备利器。,Apa
3、che RocketMQ是开源的、分布式的、消息和数据流平台,生产者消费者模型,生产者向1个或多个消息主题生产消息,生产者和消费者彼此不知道对方,0或多个消费者可能对消息主题感兴趣,异步处理,将不必要的业务逻辑,进行异步处理,从而达到提速的目的。,150,110,65,应用解耦,解除不同系统或模块之间的耦合。,如果库存系统无法访问,则会导致处理失败,而影响下单。,即使下单时库存系统不能正常使用,也不会影响正常下单。,消息队列一般都内置了高效的通讯机制,可用在纯通讯场景。,消息通讯,融峰缓冲,消息队列最常用的应用场景。在秒杀或团抢场景广泛应用。,流量瞬间暴涨,引发服务故障。,可以缓冲高压,灵活处
4、理请求。,分布式索引技术,百亿级数据秒级查询。,数据计算处理技术,分布式计并行算框架,适合时效性较低场景。,一种通用的计算框架,适合时效性较高场景。,流式计算框架,非常适合需实时计算的场景。,伪实时,外部存储,外部数据,Spout,Bolt,T,T,T,T,T,T,T,实时,数据分析技术,数据可视化技术,大数据前沿技术,1,2,大数据应用场景,商品零售大数据,有一位父亲怒气冲冲地跑到塔吉特卖场,质问为何将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中的女儿?然而后来证实,他的女儿果真怀孕了。这名女孩搜寻商品的关键词,以及在社交网站所显露的行为轨迹,使沃尔玛捕捉到了她的怀孕信息。模型发现,许多
5、孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。最后塔吉特选出了25种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,因此Target就能早早地把孕妇优惠广告寄发给顾客。,大数据+政治,在筹备过程中,奥巴马背后的数据分析团队一直在收集、存储和分析选民数据。在这次的大选中,奥巴马竞选阵营的高级助理们决定将参考这一团队所得出的数据分析结果来制定下一步的竞选方案。利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。比如,在东海岸找到一位对女性群体具备相同号召力的
6、名人,从而复制“克鲁尼效应”并为奥巴马筹集竞选资金。“Twitter的政治指数”提供了一个衡量社会化媒体平台的用户如何评价候选人的方式。奥巴马积极的情绪指数是59,而罗姆尼的只有53。,证监会大数据,回顾“老鼠仓”的查处过程,在马乐一案中,“大数据”首次介入。深交所此前通过“大数据”查出的可疑账户高达300个。实际上,早在2009年,上交所曾经有过利用“大数据”设置“捕鼠器”的设想。通过建立相关的模型,设定一定的指标预警,即相关指标达到某个预警点时监控系统会自动报警。而此次在马乐案中亮相的深交所的“大数据”监测系统,更是引起了广泛关注。深交所有几十人的监控室,设置了200多个指标用于监测估计,一旦出现股价偏离大盘走势,深交所利用大数据查探异动背后是哪些人或机构在参与。,金融大数据,阿里“水文模型”是按小微企业类目、级别等分别统计一个阿里系商户的相关“水文数据”库。如过往每到某个时点,该店铺销售会进入旺季,销售额就会增长,同时每在这个时段,该客户对外投放的额度就会上升,结合这些水文数据,系统可以判断出该店铺的融资需求;结合该店铺以往资金支用数据及同类店铺资金支用数据,可以判断出该店铺的资