事业单位考试题库
热门关键字: 淮安市盱眙县 西藏 七星关 乐清 
  一文了解大数据生态体系-Hadoop
发表评论 来源:网络整理 编辑:admin2 日期:2024-01-27 在线客服在线客服

一.大数据导论1.1大数据概念

大数据(bigdata):指未能在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是须要新处理模式能够具有更强的决策力、洞察发觉力和流程优化能力的海量、高下降率和多元化的信息资产。

主要解决,海量数据的储存和海量数据的剖析估算问题。

按次序给出数据储存单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit1K=1MB=1024K1G=1024M1T=1024G1P=1024T

1.2大数据的特征

1、(大量):截止目前,人类生产的所有彩印材料的数据量是200PB,而历史上全人类总共说过的话的数据量大概是5EB。当前,典型个人计算机硬碟的容量为TB量级,而一些大企业的数据量早已接近EB量级。二、大数据特征

2、(高速):这是大数据分辨于传统数据挖掘的最明显特点。按照IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在这么海量的数据面前,处理数据的效率就是企业的生命。淘宝双十二:2017年3分01秒,淘宝交易额超过100亿

3、(多样):这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于往年便于储存的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网路日志、音频、视频、图片、地理位置信息等,这种多类型的数据对数据的处理能力提出了更高要求。

4、Value(优价值密度):价值密度的高低与数据总数的大小成正比。比如,在三天监控视频中,我们只关心宋宋老师早上在床上瑜伽那一分钟,怎么快速对有价值数据“提纯”成为目前大数据背景下待解决的困局。

1.3大数据能干啥?

1、O2O:百度大数据+平台通过先进的线上线下打通技术和客流剖析能力,助力店家精细化营运,提高销量。

2、零售:探求用户价值,提供个性化服务解决方案;贯串网路与实体零售,牵手创造极至体验。精典案例,子尿片+饮料。

3、旅游:深度结合大数据能力与旅集会业需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。

4、商品广告推荐:给用户推荐访问过的商品广告类型

5、保险:海量数据挖掘及风险预测,推动保险行业精准营销,提高精细化定价能力。

6、金融:多维度彰显用户特点,帮助金融机构推荐优质顾客,防范欺诈风险。

7、房产:大数据全面推动房地产行业,构建精准投策与营销,选出更合适的地,建造更合适的楼,借给更合适的人。

8、人工智能:

1.4企业数据部的通常组织结构

二.从框架讨论大数据生态2.1是哪些

1)是一个由基金会馆开发的分布式系统基础构架

2)主要解决,海量数据的储存和海量数据的剖析估算问题。

3)广义上来说,一般是指一个更广泛的概念——生态圈

2.2发展历史

1)--Doug开创的开源软件,用java书写代码,实现与类似的全文搜索功能,它提供了全文检索引擎的构架,包括完整的查询引擎和索引引擎

2)2001年年末成为基金会的一个子项目

3)对于大数目的场景,面对与同样的困难

4)学习和模仿解决这种问题的办法:微型版Nutch

5)可以说是的思想之源(在大数据方面的三篇论文)

GFS--->HDFS

Map---->MR

--->Hbase

6)2003-2004年,公开了部份GFS和思想的细节,借此为基础Doug等人用了2年业余时间实现了DFS和机制,使Nutch性能暴跌

7)2005年作为的子项目Nutch的一部份即将引入基金会。2006年3月份,Map-和NutchFile(NDFS)分别被列入称为的项目中

8)名子来始于Doug父亲的玩具小象

9)就此诞生并迅速发展,标志着云估算时代将至

2.3三大发行版本

三大发行版本:、、。

版本最原始(最基础)的版本,对于入门学习最好。

在小型互联网企业中用的较多。

文档较好。

2.4的优势

1)高可靠性:由于假定估算元素和储存会出现故障,由于它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。

2)高扩充性:在集群间分配任务数据,可便捷的扩充数以千计的节点。

3)高效性:在的思想下,是并行工作的,以推动任务处理速率。

4)高容错性:手动保存多份副本数据,但是才能手动将失败的任务重新分配。

2.5组成

1)HDFS:一个高可靠、高吞吐量的分布式文件系统。

2):一个分布式的离线并行估算框架。

3)YARN:作业调度与集群资源管理的框架。

4):支持其他模块的工具模块(、RPC、序列化机制、日志操作)。

2.5.1HDFS构架概述

1)(nn):储存文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每位文件的块列表和块所在的等。

2)(dn):在本地文件系统储存文件块数据,以及块数据的校准和。

3)(2nn):拿来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

2.5.2YARN构架概述

1)(rm):处理顾客端恳求、启动/监控、监控、资源分配与调度;

2)(nm):单个节点上的资源管理、处理来自的命令、处理来自的命令;

3):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。

4):对任务运行环境的具象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

2.5.3构架概述

将估算过程分为两个阶段:Map和

1)Map阶段并行处理输入数据

2)阶段对Map结果进行汇总

上图简单的阐述了map和的两个过程或则作用,即使不够严谨,而且足以提供一个大约的认知,map过程是一个水果到制成食物前的打算工作,将打算好的材料合并因而制做出食物的过程。

2.6大数据技术生态体系

图中涉及的技术名词解释如下:

1)Sqoop:sqoop是一款开源的工具,主要用于在(Hive)与传统的数据库(mysql)间进行数据的传递,可以将一个关系型数据库(比如:MySQL,等)中的数据导进到的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

2)Flume:Flume是提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中订制各种数据发送方,用于搜集数据;同时,Flume提供对数据进行简单处理,并讲到各类数据接受方(可订制)的能力。

3)Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特点:

4)Storm:Storm为分布式实时估算提供了一组通用谓词,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种形式。Storm也可被用于“连续估算”(),对数据流做连续查询,在估算时就将结果以流的方式输出给用户。

5)Spark:Spark是当前最流行的开源大数据显存估算框架。可以基于上储存的大数据进行估算。

6)Oozie:Oozie是一个管理Hdoop作业(job)的工作流程调度管理系统。Oozie协调作业就是通过时间(频度)和有效数据触发当前的Oozie工作流程。

7)Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于通常的关系数据库,它是一个适宜于非结构化数据储存的数据库。

8)Hive:hive是基于的一个数据库房工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql句子转换为任务进行运行。其优点是学习成本低,可以通过类SQL句子快速实现简单的统计,何必开发专门的应用,非常适宜数据库房的统计剖析。9)R语言:R是用于统计剖析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计估算和统计制图的优秀工具。

10):是个可扩充的机器学习和数据挖掘库,当前支持主要的4个用例:推荐挖掘:收集用户动作并借此给用户推荐可能喜欢的事物。集聚:搜集文件并进行相关文件分组。分类:从现有的分类文档小学习,找寻文档中的相像特点,并为无标签的文档进行正确的归类。频繁项集挖掘:将一组项分组,并辨识什么某些项会时常一起出现。

11):是的一个开源的实现。它是一个针对小型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。的目标就是封装好复杂易出错的关键服务,将简单易用的插口和性能高效、功能稳定的系统提供给用户。

2.7推荐系统框架图

事业单位必备资料
事业单位考试题库
事业单位考试最新文章
事业单位考试热门文章
事业单位考试
 
网站留言 | 关于我们 | 广告业务 | 信息反馈 | 合作伙伴 | 网站地图
版权所有 2007-2017 事业单位考试题库(www.luzai.cn)
Copyright © 2007-20016 www.luzai.cn Incorporated. All rights reserved.