Hadoop简介

Posted by Shenpotato on October 17, 2019

对hadoop进行介绍

一、Hadoop基本介绍

Hadoop是一个开源的,用于可靠,大规模,分布式计算的软件架构

用于:

  • 海量数据的存储(HDFS-分布式文件系统)

  • 海量数据的分析(MapReduce-基于yarn,用于并行处理大数据集的计算框架)

  • 资源管理调度(YARN-分布式作业调度系统)

google的三篇论文

  • HDFS
  • MapReduce
  • BigTable
  1. 分布式系统介绍
  • 软件系统划分为多个子系统或者模块,各自运行在不同的机器上,子系统或者模块之间通过网络通信协作
  • 例子:分布式操作系统,分布式文件系统,分布式数据库系统等
  1. 离线数据分析流程