首先初入hadoop家族,了解了一些hadoop运行作业的基本流程,
由于对编写八股文形式的hadoop程序缺少认知,所以翻了翻源代码。
首先有关继承mapper类的源代码主要由几个方法组成
其中map函数是最经常被重写的
源码中只是运用了封装好了的输出类型的Context进行了简单的输出。
听说技术高超的人会重写run方法:
setup函数会在执行map任务之前调用一次
cleanup会在map执行之后执行一次
Context类型封装了像
Configuration conf, TaskAttemptID taskid,
RecordReader<KEYIN,VALUEIN> reader,
RecordWriter<KEYOUT,VALUEOUT> writer,
OutputCommitter committer,
StatusReporter reporter,
InputSplit split</