hadoop 基本概念
http://hadoop.apache.org/
https://hadoop.apache.org/docs/stable/index.html
http://hadoop.apache.org/docs/r1.0.4/cn/
储备知识
需要有一定操作系统、数据库和编程知识。
操作系统
Linux系统 : Centos,Ubuntu (基本命令操作和SHELL脚本)
数据库
关系数据库:Ms-sql,Mysql,Oracle,Sqlite
非关系数据库:Mongodb,Redis
编程
Java se 编程;Python 脚本;
大数据时代
Google 公司 2003年-2008年发布三篇大数据的论文(GFS、MapReduce、BigTable);2008年成为 Apache开源项目;
Storm 实时处理软件
Spark 实时/离线处理功能
ClickHouse 分布式数据库
Kafka 采集数据
三篇论文
GFS、MapReduce、BigTable
2003年 GFS (Google File System) 文件系统模型
2004年 MapReduce (Simplified Data Processing On Large Clusters) 编程模型
2006年 Bigtable (A Distributed Storage System for Structured Data) 数据模型
GFS (分布式文件系统)
服务端和客户端
客户端:获取文件元信息,上传数据
管理节点(服务端 ):提供文件元信息
数据节点:数据冗余
文件元信息
块节点、索引
管理节点
master
数据节点
chunk
实现工具 HDFS:分布式
HDFS
MapReduce (编程)
分散和汇总数据的思想
MapReduce
Bigtable (数据)
把关系数据放入一张表内
rowkey 行键代表一个对象
column Family 相当于表特征
tablet 表分区, 表分区服务器(tablet server)
Hbase
Hadoop概述
2008年成立
GFS HDFS
MapReduce MapReduce
BigTable HBase
GFS HDFS
MapReduce MapReduce
BigTable HBase
hadoop 分布式文件系统
管理节点
NameNode
数据节点
DataNode
参考
2020年最新 Hadoop大数据技术与应用课程