所用时间:315分钟
代码量(行):160
了解到的知识点:
1.MapReduce
MapReduce 是一种编程模型,主要用于大规模数据集(通常是 TB 级甚至 PB 级)的并行运算,由 Google 提出,广泛应用于分布式计算领域,比如大数据处理框架 Hadoop 就基于 MapReduce,但MapReduce 开源程序并不是Google的。
MapReduce将复杂的、对大规模数据的运算,分拆成两个主要阶段:Map(映射)和Reduce(归约),通过分布式的方式,让多台机器同时处理不同部分的数据,最后再汇总结果。简称为“分而治之”。看似MapReduce是拆成了Map和Reduce两个阶段,但其实它俩中间还夹了一层Shuffle(洗牌)阶段,俗话说,没有加一层中间层解决不了的问题,如果有的话就加两层