知行合一
Github
顺翔的技术驿站
顺翔的技术驿站
  • README
  • ABOUTME
  • Computer Science
    • 数据结构与算法
      • 位运算以及位图
      • 随机数
      • 递归
      • 经典排序算法
      • 经典查找算法
      • 数组和动态数组
      • 链表
      • 栈和队列
      • 树
      • 哈希表
    • 计算机网络
      • 物理层
      • 数据链路层
      • 网络层
        • TCP
      • 运输层
      • 应用层
      • HTTP
        • HTTPS的原理
        • DNS详解
        • file协议
        • 邮件协议
    • 设计模式
      • 单例模式
      • 建造者模式
      • 原型模式
      • 工厂模式
      • 享元模式
      • 代理模式
      • 装饰者模式
      • 桥接模式
      • 适配器模式
      • 外观模式
      • 组合模式
      • 事件驱动
      • 有限状态机
      • 备忘录模式
      • 模板方法模式
      • 策略模式
      • 迭代器模式
      • 命令模式
      • 解释器模式
    • 加密与解密
      • 数字证书原理
      • cfssl
  • Programming Language
    • 编程语言学习要素
    • Java
      • 集合
        • List
          • ArrayList
          • Vector
          • Stack
          • LinkedList
        • Iterator
        • Set
          • HashSet
          • TreeSet
        • Map
          • HashMap
          • HashTable
          • TreeMap
          • LinkedHashMap
      • 常用API
        • 日期时间处理
        • System
        • Random
        • Arrays
        • Scanner
        • 格式化输出
      • java特性
        • java5特性
        • java8特性
        • java9特性
        • java10特性
        • java11特性
      • 并发编程
        • 线程基础
        • 线程同步:synchronized及其原理
        • 线程同步: volatile
        • 锁机制
        • 锁的分类与对应的Java实现
        • JUC:同步辅助类
        • JUC: AtomicXXX
        • 线程池
        • ThreadLocal详解
      • 测试
        • 使用JMH进行基准测试
      • JVM
        • 强引用、软引用、弱引用、虚引用
        • jvm内存模型
        • jvm优化
        • GC算法与回收器
        • 静态绑定与动态绑定
      • ORM
        • Mybatis
          • IBatis常用操作
      • Web编程
        • Servlet详解(一)
        • Servlet详解(二):request和response对象
        • Servlet详解(三):会话技术与Cookie
        • JSP详解(一):页面构成、EL表达式
        • JSP详解(二):九大内置对象
        • JavaWeb的编码问题
        • Thymeleaf
      • Velocity
      • Java日志框架总结
      • Spring
        • SpringIOC
        • SpringMVC
        • SpringBoot源码
      • 其他
        • Apache Commons Lang使用总结
        • 使用FtpClient进行ftp操作
        • Java PDF操作总结
        • Java使用zip4j进行文件压缩
        • Java解析Excel总结
    • JVM Language
      • Groovy
      • Scala
    • Kotlin
      • 变量和常量
      • 数据类型
        • 基本数据类型
        • 容器类型
        • 函数类型
        • null和null安全
      • 流程控制
      • 包
      • 面向对象
    • Golang
      • 关键字与标识符
      • 变量和常量
      • 数据类型
      • 函数
      • 常用API
        • 时间日期处理
        • 字符串操作
        • 正则表达式
      • 控制语句
      • 包package
      • 面向对象
      • 错误处理
      • 命令行编程
        • Cobra
      • 文件操作
      • 测试
      • 并发编程
        • sync包详解
      • 数据格式与编码
        • 使用encoding包操作xml
        • 使用encoding包操作json
        • 使用magiconair操作properties
        • 使用go-ini操作ini
      • 反射
      • Build Tools
        • Go Module
        • Go Vendor
      • 日志框架
        • zap日志框架
      • Web编程
        • Gin
    • JavaScript
      • 数据类型
      • ECMAScript
        • ECMAScript6
      • NodeJS
    • TypeScript
      • 变量和常量
      • 数据类型
      • 函数
      • 面向对象
      • 泛型
      • Build Tools
        • tsc编译
        • 与webpack整合
    • Python
      • BuildTools
        • requirements.txt
        • Ananconda
    • Swift
      • 变量和常量
    • Script Language
      • Regex
      • BAT
      • Shell
    • Markup Language
      • Markdown
      • Yaml
  • Build Tools
    • CMake
    • Maven
      • 搭建Nexus私服
      • maven使用场景
    • Gradle
  • Version Control
    • Git
      • Git工作流
      • Git分支管理
      • Git Stash
      • Git Commit Message规范
      • .gitttributes文件
    • SVN
  • Distributed
    • 分布式基础理论
      • 互联网架构演变
      • 架构设计思想AKF拆分原则
      • CAP理论
      • BASE理论
    • 一致性
      • 一致性模型
      • 共识算法
        • Paxos
        • Raft
        • ZAB
      • 复制
        • 主从复制
        • Quorum机制
        • Nacos Distro协议
      • 缓存一致性
        • 双写一致性
        • 多级缓存一致性
    • 事务一致性
      • Seata
      • 本地消息表实现方案
      • 关于dpad的事务问题的分析
    • IO
    • RPC协议
    • 序列化
    • Session共享
    • 分布式协调
      • Zookeeper
        • zk集群4节点搭建
    • 服务治理
      • Dubbo分布式治理
    • 分布式ID
      • 分布式ID生成策略总结
    • 分布式锁
    • 应用服务器
      • Tomcat
    • Web服务器
      • Nginx
        • Nginx的基本配置
        • ab接口压力测试工具
        • nginx模块
        • 随机访问页面
        • 替换响应内容
        • 请求限制
        • 访问控制
        • 状态监测
        • nginx应用场景
        • 代理服务
        • 负载均衡
        • 缓存
        • 静态资源服务器和动静分离
        • 附录
      • Kong
    • 缓存中间件
      • Caffeine
      • memcached
      • Redis
        • Centos下安装Redis
        • RatHat下安装Redis
    • 数据库中间件
      • ShardingSphere
      • MyCat2
    • 消息中间件
      • Kafka
      • RocketMQ
  • Microservices
    • 服务发现
      • Nacos注册中心
      • Consul
    • 配置中心
      • Apollo
    • 消息总线
    • 客户端负载均衡
    • 熔断器
    • 服务网关
    • 链路追踪
      • Skywalking
  • Domain-Specific
    • Auth
      • 有关权限设计的思考
      • 认证方式
      • JWT
    • 任务调度
      • QuartzScheduler
      • Elastic-Job
      • XXL-Job
      • PowerJob
    • 工作流
      • BPM
      • Activiti
      • Flowable
    • 规则引擎
      • Drools
  • Architect
    • DDD领域驱动设计
      • 三层架构设计
      • 四层架构设计
    • Cola
    • 代码设计与代码重构
      • 重构改变既有代码设计
      • 枚举规范化
      • 接口幂等
      • 限流
      • 历史与版本
      • 逻辑删除和唯一索引
      • 业务对象设计
    • 单元测试
      • SpringBoot单元测试实践
    • 项目管理
    • APM
      • SkyWalking
      • Arthas
    • 性能优化
      • 接口性能优化
    • 系统设计
      • 流程中台
      • 短信中台
      • 权限中台
        • 智电运维平台组织架构改造二期
  • Database
    • Oracle
      • Docker下安装oracle11g
    • IBM DB2
    • Mysql
      • 安装Mysql
      • 用户与权限管理
      • MySQL的逻辑架构
      • 存储引擎
      • 索引详解
      • MySql的列类型
      • MySql中表和列的设计
      • MySql的SQL详解
      • 锁机制
      • 事务
      • Mysql函数总结
      • MySql存储过程详解
      • MySql触发器详解
      • Mysql视图详解
      • Mysql中Sql语句的执行顺序
      • 配置MySql主从和读写分离
      • MySql的备份策略
      • MySql分库分表解决方案
      • MySql优化总结
      • MySQL实战调优
        • schema与数据类型优化
    • Mongo
  • File System
    • README
    • HDFS
    • FastDFS
    • MinIO
  • Linux
    • 常用的Linux命令
    • vim
    • Linux磁盘管理
    • Linux系统编程
    • RedHat
      • rpm包管理器具体用法
    • Ubuntu
      • Ubuntu下录制屏幕并做成gif图片
      • Ubuntu20.05LiveServe版安装
  • DevOps
    • VM
      • 新建一个新的Linux虚拟机需要配置的东西
      • VMware桥接模式配置centos
      • VMwareFusion配置Nat静态IP
    • Ansible
    • Container
      • Docker
        • Dockerfile详解
        • DockerCompose详解
      • Containerd
    • Kubernetes
      • 安装k8s
        • 使用Minikube安装k8s
        • centos7.x下使用kubeadm安装k8s1.21
        • ubuntu20下使用kubeadm安装k8s1.21
        • centos7.x下使用二进制方式安装k8s1.20
        • 使用DockerDesktop安装K8s(适用M1芯片)
      • 切换容器引擎
      • 使用k8s部署项目的流程
      • 集群维护-备份升级排错
    • Gitlab
      • GitlabCI/CD
    • CI/CD
      • ArgoCD
  • Big-Data
    • Hadoop
    • MapReduce
    • HDFS
  • Front-End
    • Android
      • Log的使用、自定义Log工具类
      • Android倒计时功能实现
      • 解决ViewDrawableLeft左侧图片大小不可控的问题
      • AndroidSQLite基本用法
      • View的生命周期
      • 工具类
      • WebView详解
      • ViewTreeObserver类监听ViewTree
      • 在onCreate中获取控件的宽高等信息的几种方法
      • View的foreground属性
        • MaterialDesign
          • BottomNavigationBar
          • CardView
          • Elevation高度、shadows阴影、clipping裁剪、tint着色
          • TouchFeedbackRipple波纹动画
      • Volley完全解析——使用、源码
      • Android围住神经猫的实现
      • LookLook剖析,架构概述——MVP、Retrofit+RxJava
      • Android性能优化之渲染
    • Browser
      • 浏览器的工作原理
    • HTML
      • DOCTYPE标签、XHTML与HTML的区别
    • CSS
      • CSS的继承性、层叠性、权重
      • CSS浮动float详解(一):标准文档流
      • CSS浮动float详解(二):使用float
      • CSS浮动float详解(三):清除浮动方案
    • Tools Lib
      • JavaScript 文件下载解决方案-download.js
      • js-url 用于url的js开源库
      • jsuri 用于操作url的js开源库
      • window offset
    • React
      • 模块化和组件
      • 组件的三大核心属性
      • 事件处理
      • 表单数据收集
      • 生命周期
      • DOM的diff算法
      • 工程化
        • 脚手架create-react-app
        • 工程结构和模块化
      • 路由
  • Design
    • 产品设计
      • 交互设计
由 GitBook 提供支持
在本页
  • MapReduce 核心思想:分治
  • MapReduce编程的八个步骤
  • 单词统计MapReduce编程示例
  • MapReduce的分区

这有帮助吗?

在GitHub上编辑
  1. Big-Data

MapReduce

上一页Hadoop下一页HDFS

最后更新于2年前

这有帮助吗?

MapReduce 核心思想:分治

  • Map:负责分,即把复杂的任务分解为若干个简单的任务来并行处理。拆分前提为这些小任务可以进行并行计算,彼此之间几乎没有依赖关系。

  • Reduce: 负责合,对map阶段的结果进行全局汇总,最后进行数据输出。

Map和Reduce这两个阶段和一起就是MapReduce的思想体现。

MapReduce编程的八个步骤

Map 阶段: 分的步骤

  • 第一步:读取文件,将其解析为key/value对 k1/v1,并将 k1/v1输出到第二步

  • 第二步:自定义map逻辑,处理第一步发过来的 k1/v1,自定义处理逻辑进行处理,处理后变为k2/v2,输出到第三步

Shuffle阶段: 分组阶段

  • 第三步:分区,对k2/v2进行分区,相同的key将会发送到同一个Reduce中,形成一个集合

  • 第四步:排序,对上述集合进行字典排序

  • 第五步:规约,主要在map端对数据做一次聚合,减少我们输出key2的数据量

  • 第六步:分组,将相同的数据发送到同一组里面去调用一次reduce逻辑

**Reduce阶段:**合的步骤

  • 第七步:自定义reduce逻辑,接收k2/v2,将其转换为k3/v3进行输出

  • 第八步:输出,将reduce处理完成的数据进行输出

每个步骤都对应一个Class类,将八个类组织到一起就是MapReduce程序

单词统计MapReduce编程示例

代码可以参考:https://github.com/xf616510229/hadoop-study/tree/master/wordcount

0. 添加测试数据 wordcount.txt到hdfs

# 创建测试数据
vim  wordcount.txt ->
hello wold spark
hadoop,bigdata
java,hadoop
bigdata,spark
spark

# 创建hdfs文件夹
hdfs dfs -mkdir /wordcount
# 上传到hdfs
hdfs dfs -put wordcount.txt /wordcount 

1. 创建JobMain对象,此对象代表一个MapReduce任务,负责将八大步骤(八个类)编织为一个流程:

/**
 * Job 代表一个MapReduce任务,负责编织八大步骤
 * 
 * 注意:本地运行可能会有权限问题,可有三种解决方案: 
 * 1. 修改hdfs-site.xml的dfs.permissions字段,关闭权限
 * 2. 修改目标输出文件的父文件夹的权限
 * 3. 打包为jar,放到服务器上运行: hadoop jar wordcount.jar com.yangsx95.hadoop.wordcount.JobMain
 *
 * @author yangsx
 * @version 1.0
 * @date 2019/6/2
 */
public class JobMain extends Configured implements Tool {

    @Override
    public int run(String[] strings) throws Exception {
        // 获取job对象,job对象负责将八个步骤编织到一起,并交给yarn集群运行
        Job job = Job.getInstance(super.getConf(), "wordcountJob");
        // 打包运行需要加上此句代码,否则会ClassNotFound
        job.setJarByClass(JobMain.class);
        
        // 开始组织八个步骤,即八个类

        // 1. 读取文件,解析为k1/v1,注意 TextInputFormat reduce包下的是2.x mapred是1.x
        job.setInputFormatClass(TextInputFormat.class);
        // 集群运行模式,需要从hdfs中获取文件
        TextInputFormat.addInputPath(job, new Path("hdfs://node01:8020/wordcount"));
        
        // 从本地获取文件
        //TextInputFormat.addInputPath(job, new Path("file:///D:\\data\\wordcount"));
        
        // 2. 自定义map逻辑,接收第一步的k1/v1,转换为 k2/v2
        job.setMapperClass(WordCountMapper.class);
        // 设置k2,v2的类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 3 - 6 省略,3:分区,将相同的key的value发送到一个reduce中,形成一个集合

        // 7. 设置reduce类,接收k2/v2 输出 k3/v3, 并设置k3/v3的类型
        job.setReducerClass(WordCountReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 8. 设置输出类,outputFormat,需要保证目标输出路径不存在,结果将会放到此路径中
        job.setOutputFormatClass(TextOutputFormat.class);
        // 输出到hdfs上
        TextOutputFormat.setOutputPath(job, new Path("hdfs://node01:8020/wordcountout"));
        // 输出到本地
        //TextOutputFormat.setOutputPath(job, new Path("file:///D:\\data\\wordcountout"));
        boolean b = job.waitForCompletion(true);
        return b ? 0 : 1;
    }

    public static void main(String[] args) throws Exception {
        Configuration configuration = new Configuration();
        // 提交job,任务完成后,会返回一个状态码值,如果为0,表示程序运行成功
        int code = ToolRunner.run(configuration, new JobMain(), args);
        System.exit(code);
    }
}

2. 创建WordCountMapper对象,主要负责map工作,将k1/v1转换为k2/v2:

/**
 * 步骤2 用于将k1/v1转换为 k2/v2
 * <p>
 * org.apache.hadoop.mapred.Mapper 1.x
 * org.apache.hadoop.mapreduce.Mapper: 2.x
 * <p>
 * 继承Mapper代表此类是一个Mapper类,需要四个泛型: keyin valuein keyout valueout, 即k1 v1 k2 v2
 * 所以,可以指定泛型  Mapper<Long, String, String, Integer>
 * Hadoop自己封装了一套数据类型,好处是序列化比较快,全部实现了接口 WritableComparable ,此接口又实现了 Writable与Comparable接口
 *
 * @author yangsx
 * @version 1.0
 * @date 2019/6/2
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    /**
     * 变量提升,防止多行调用map,造成不必要的创建操作
     */
    private Text text = new Text();
    private IntWritable intWritable = new IntWritable();

    /**
     * 每行数据都会调用此方法一次,此方法定义了Mapper的处理逻辑
     * 此时是第二步,第一步已经经过TextInputFormat,数据已经变为 key:行偏移量 value:行内容了
     * 此时需要将数据变为 key: 单词内容  value: 单词数量
     * @param context 上下文对象,承接上文数据,传输数据至下文
     */
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String lineContent = value.toString();
        String[] words = lineContent.split(",");
        // 遍历单词
        for (String word : words) {
            text.set(word);
            intWritable.set(1);
            // 存放k2/v2
            context.write(text, intWritable);
        }
    }
}

3. 创建WordCountReducer对象,主要负责reduce合的操作,将k2/v2转换为k3/v3:

/**
 * 步骤7 自定义reduce逻辑,针对分布式计算的结果进行整合
 * 
 * 继承reducer类表明此类用于reduce计算,同样有提供hadoop1.x与2.x的版本
 * 四个泛型,分别代表 k2 v2 k3 v3
 * @author yangsx
 * @version 1.0
 * @date 2019/6/2
 */
public class WordCountReducer  extends Reducer<Text, IntWritable, Text, IntWritable> {

    /**
     * 定义具体的reduce逻辑
     * @param values 步骤3生成的集合
     */
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        // 遍历集合,计算次数
        int count = 0;
        for (IntWritable value : values) {
            count += value.get();
        }
        // 将数据写出
        context.write(key, new IntWritable(count));
    }
}

MapReduce的分区

在MapReduce八大编程步骤中,第三步为分区,对k2/v2进行分区,相同的key将会发送到同一个Reduce中,形成一个集合。

分区主要将相同的数据发送到同一个reduce中。

1559485410534
无标题