NLineInputFormat 案例-APISpace

NLineInputFormat 案例

一、需求分析 1、文件 hadoop is ok hadoop not ok java is fun php is ok php is pretty python is all go is new 2、需求对上述文件中每个单词出现的数量进行统计，2行数据一个切片 3、分析与传统的WordCount相似，但是按行切片，而不是BlockSize 二、代码前提条件：创建Maven项目，导入依赖，配置log日志 1、Mapper package com.ln; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; public class LNMapper extends Mapper { Text k = new Text(); IntWritable v = new IntWritable(1); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 1.获取行 String line = value.toString(); // 2.切割 String[] words = line.split("\\s+"); // 3.循环写入 for (String word : words) { k.set(word); context.write(k, v); } } } 2、Reducer package com.ln; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; import java.io.IOException; public class LNReducer extends Reducer { IntWritable v = new IntWritable(); @Override protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException { // 1.累加 int sum = 0; for (IntWritable value : values) { sum += value.get(); } // 2. 写入 v.set(sum); context.write(key, v); } } 3、Driver package com.ln; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input.NLineInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import java.io.IOException; public class LNDriver { public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { args = new String[]{"E:\\a\\input", "E:\\a\\output"}; // 1. 获取job Configuration conf = new Configuration(); Job job = Job.getInstance(conf); // 2. 设置Jar job.setJarByClass(LNDriver.class); // 3. 关联 mapper 和 reducer job.setMapperClass(LNMapper.class); job.setReducerClass(LNReducer.class); // 4. 设置 mapper的输出 kv job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(IntWritable.class); // 5. 设置最终输出 kv job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); // a. 设置每个切片中 2 调记录 NLineInputFormat.setNumLinesPerSplit(job, 2); // b、设置 inputFormat 的格式 job.setInputFormatClass(NLineInputFormat.class); // 6. 设置输入输出路径 FileInputFormat.setInputPaths(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); // 7. 提交 job boolean wait = job.waitForCompletion(true); System.exit(wait? 0: 1); } } 注意：核心代码 1、设置一个切片有多少行数据 NLineInputFormat.setNumLinesPerSplit(job, 2); 2、设置InputFormat的格式 job.setInputFormatClass(NLineInputFormat.class); 结果：运行完成后： number of splits:4

c语言sscanf函数的用法是什么

264 2022-11-24

NLineInputFormat 案例

c语言sscanf函数的用法是什么

c语言一维数组怎么快速排列

linux怎么查看本机内存大小

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）