一文了解大数据生态体系-Hadoop - 事业单位考试题库

相邻主题 : 2024年内蒙古乌海市公安局招聘警务辅助人员120人简章

当前位置 : 首页 > 事业单位招聘信息网 » 正文

一文了解大数据生态体系-Hadoop

发表评论　来源：网络整理　编辑：admin2　日期：2024-01-27 在线客服

一.大数据导论1.1大数据概念

大数据（bigdata）：指未能在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是须要新处理模式能够具有更强的决策力、洞察发觉力和流程优化能力的海量、高下降率和多元化的信息资产。

主要解决，海量数据的储存和海量数据的剖析估算问题。

按次序给出数据储存单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit1K=1MB=1024K1G=1024M1T=1024G1P=1024T

1.2大数据的特征

1、（大量）：截止目前，人类生产的所有彩印材料的数据量是200PB，而历史上全人类总共说过的话的数据量大概是5EB。当前，典型个人计算机硬碟的容量为TB量级，而一些大企业的数据量早已接近EB量级。二、大数据特征

2、（高速）：这是大数据分辨于传统数据挖掘的最明显特点。按照IDC的“数字宇宙”的报告，预计到2020年，全球数据使用量将达到35.2ZB。在这么海量的数据面前，处理数据的效率就是企业的生命。淘宝双十二：2017年3分01秒，淘宝交易额超过100亿

3、（多样）：这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于往年便于储存的以数据库/文本为主的结构化数据，非结构化数据越来越多，包括网路日志、音频、视频、图片、地理位置信息等，这种多类型的数据对数据的处理能力提出了更高要求。

4、Value（优价值密度）：价值密度的高低与数据总数的大小成正比。比如，在三天监控视频中，我们只关心宋宋老师早上在床上瑜伽那一分钟，怎么快速对有价值数据“提纯”成为目前大数据背景下待解决的困局。

1.3大数据能干啥？

1、O2O：百度大数据+平台通过先进的线上线下打通技术和客流剖析能力，助力店家精细化营运，提高销量。

2、零售：探求用户价值，提供个性化服务解决方案；贯串网路与实体零售，牵手创造极至体验。精典案例，子尿片+饮料。

3、旅游：深度结合大数据能力与旅集会业需求，共建旅游产业智慧管理、智慧服务和智慧营销的未来。

4、商品广告推荐：给用户推荐访问过的商品广告类型

5、保险：海量数据挖掘及风险预测，推动保险行业精准营销，提高精细化定价能力。

6、金融：多维度彰显用户特点，帮助金融机构推荐优质顾客，防范欺诈风险。

7、房产：大数据全面推动房地产行业，构建精准投策与营销，选出更合适的地，建造更合适的楼，借给更合适的人。

8、人工智能：

1.4企业数据部的通常组织结构

二.从框架讨论大数据生态2.1是哪些

1）是一个由基金会馆开发的分布式系统基础构架

2）主要解决，海量数据的储存和海量数据的剖析估算问题。

3）广义上来说，一般是指一个更广泛的概念——生态圈

2.2发展历史

1）--Doug开创的开源软件，用java书写代码，实现与类似的全文搜索功能，它提供了全文检索引擎的构架，包括完整的查询引擎和索引引擎

2）2001年年末成为基金会的一个子项目

3）对于大数目的场景，面对与同样的困难

4）学习和模仿解决这种问题的办法：微型版Nutch

5）可以说是的思想之源(在大数据方面的三篇论文)

GFS--->HDFS

Map---->MR

--->Hbase

6）2003-2004年，公开了部份GFS和思想的细节，借此为基础Doug等人用了2年业余时间实现了DFS和机制，使Nutch性能暴跌

7）2005年作为的子项目Nutch的一部份即将引入基金会。2006年3月份，Map-和NutchFile(NDFS)分别被列入称为的项目中

8）名子来始于Doug父亲的玩具小象

9）就此诞生并迅速发展，标志着云估算时代将至

2.3三大发行版本

三大发行版本:、、。

版本最原始（最基础）的版本，对于入门学习最好。

在小型互联网企业中用的较多。

文档较好。

2.4的优势

1）高可靠性：由于假定估算元素和储存会出现故障，由于它维护多个工作数据副本，在出现故障时可以对失败的节点重新分布处理。

2）高扩充性：在集群间分配任务数据，可便捷的扩充数以千计的节点。

3）高效性：在的思想下，是并行工作的，以推动任务处理速率。

4）高容错性：手动保存多份副本数据，但是才能手动将失败的任务重新分配。

2.5组成

1）HDFS：一个高可靠、高吞吐量的分布式文件系统。

2）：一个分布式的离线并行估算框架。

3）YARN：作业调度与集群资源管理的框架。

4）：支持其他模块的工具模块（、RPC、序列化机制、日志操作）。

2.5.1HDFS构架概述

1）（nn）：储存文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每位文件的块列表和块所在的等。

2）(dn)：在本地文件系统储存文件块数据，以及块数据的校准和。

3）(2nn)：拿来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

2.5.2YARN构架概述

1）(rm)：处理顾客端恳求、启动/监控、监控、资源分配与调度；

2）(nm)：单个节点上的资源管理、处理来自的命令、处理来自的命令；

3）：数据切分、为应用程序申请资源，并分配给内部任务、任务监控与容错。

4）：对任务运行环境的具象，封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

2.5.3构架概述

将估算过程分为两个阶段：Map和

1）Map阶段并行处理输入数据

2）阶段对Map结果进行汇总

上图简单的阐述了map和的两个过程或则作用，即使不够严谨，而且足以提供一个大约的认知，map过程是一个水果到制成食物前的打算工作，将打算好的材料合并因而制做出食物的过程。

2.6大数据技术生态体系

图中涉及的技术名词解释如下：

1）Sqoop：sqoop是一款开源的工具，主要用于在(Hive)与传统的数据库(mysql)间进行数据的传递，可以将一个关系型数据库（比如：MySQL,等）中的数据导进到的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2）Flume：Flume是提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中订制各种数据发送方，用于搜集数据；同时，Flume提供对数据进行简单处理，并讲到各类数据接受方（可订制）的能力。

3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统，有如下特点：

4）Storm：Storm为分布式实时估算提供了一组通用谓词，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的另一种形式。Storm也可被用于“连续估算”（），对数据流做连续查询，在估算时就将结果以流的方式输出给用户。

5）Spark：Spark是当前最流行的开源大数据显存估算框架。可以基于上储存的大数据进行估算。

6）Oozie：Oozie是一个管理Hdoop作业（job）的工作流程调度管理系统。Oozie协调作业就是通过时间（频度）和有效数据触发当前的Oozie工作流程。

7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于通常的关系数据库，它是一个适宜于非结构化数据储存的数据库。

8）Hive：hive是基于的一个数据库房工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql句子转换为任务进行运行。其优点是学习成本低，可以通过类SQL句子快速实现简单的统计，何必开发专门的应用，非常适宜数据库房的统计剖析。9）R语言：R是用于统计剖析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计估算和统计制图的优秀工具。

10）:是个可扩充的机器学习和数据挖掘库，当前支持主要的4个用例：推荐挖掘：收集用户动作并借此给用户推荐可能喜欢的事物。集聚：搜集文件并进行相关文件分组。分类：从现有的分类文档小学习，找寻文档中的相像特点，并为无标签的文档进行正确的归类。频繁项集挖掘：将一组项分组，并辨识什么某些项会时常一起出现。

11）：是的一个开源的实现。它是一个针对小型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。的目标就是封装好复杂易出错的关键服务，将简单易用的插口和性能高效、功能稳定的系统提供给用户。

2.7推荐系统框架图

事业单位必备资料

特别推荐：2022年事业单位考试专用题库，轻松入编！

特别推荐：命中率超高！2022年事业单位考试《公共基础知识》权威绝密资料!

事业单位考试最新文章

事业单位考试热门文章

事业单位考试