- mapreduce編程實例

#e#　
　4、單表關(guān)聯(lián)

　　前面的實例都是在數(shù)據(jù)上進行一些簡單的處理，為進一步的操作打基礎(chǔ)?！皢伪黻P(guān)聯(lián)”這個實例要求從給出的數(shù)據(jù)中尋找所關(guān)心的數(shù)據(jù)，它是對原始數(shù)據(jù)所包含信息的挖掘。下面進入這個實例。

　　4.1 實例描述

　　實例中給出child-parent（孩子——父母）表，要求輸出grandchild-grandparent（孫子——爺奶）表。

　　樣例輸入如下所示。

　　file：

　　child parent

　　Tom Lucy

　　Tom Jack

　　Jone Lucy

　　Jone Jack

　　Lucy Mary

　　Lucy Ben

　　Jack Alice

　　Jack Jesse

　　Terry Alice

　　Terry Jesse

　　Philip Terry

　　Philip Alma

　　Mark Terry

　　Mark Alma

　　家族樹狀關(guān)系譜：

　 mapreduce編程實例

　　樣例輸出如下所示。

　　file：

　　grandchild grandparent

　　Tom 　　Alice

　　Tom 　　Jesse

　　Jone 　　Alice

　　Jone 　　 Jesse

　　Tom 　　Mary

　　Tom 　　Ben

　　Jone 　　 Mary

　　Jone 　　 Ben

　　Philip 　　 Alice

　　Philip 　　Jesse

　　Mark 　　 Alice

　　Mark 　　 Jesse

　　4.2 設(shè)計思路

　　分析這個實例，顯然需要進行單表連接，連接的是左表的parent列和右表的child列，且左表和右表是同一個表。

　　連接結(jié)果中除去連接的兩列就是所需要的結(jié)果——“grandchild--grandparent”表。要用MapReduce解決這個實例，首先應(yīng)該考慮如何實現(xiàn)表的自連接；其次就是連接列的設(shè)置；最后是結(jié)果的整理。

　　考慮到MapReduce的shuffle過程會將相同的key會連接在一起，所以可以將map結(jié)果的key設(shè)置成待連接的列，然后列中相同的值就自然會連接在一起了。再與最開始的分析聯(lián)系起來：

　　要連接的是左表的parent列和右表的child列，且左表和右表是同一個表，所以在map階段將讀入數(shù)據(jù)分割成child和parent之后，會將parent設(shè)置成key，child設(shè)置成value進行輸出，并作為左表；再將同一對child和parent中的child設(shè)置成key，parent設(shè)置成value進行輸出，作為右表。為了區(qū)分輸出中的左右表，需要在輸出的value中再加上左右表的信息，比如在value的String最開始處加上字符1表示左表，加上字符2表示右表。這樣在map的結(jié)果中就形成了左表和右表，然后在shuffle過程中完成連接。reduce接收到連接的結(jié)果，其中每個key的value-list就包含了“grandchild--grandparent”關(guān)系。取出每個key的value-list進行解析，將左表中的child放入一個數(shù)組，右表中的parent放入一個數(shù)組，然后對兩個數(shù)組求笛卡爾積就是最后的結(jié)果了。

　　4.3 程序代碼

　　程序代碼如下所示。

　　package com.hebut.mr;

　　import java.io.IOException;

　　import java.util.*;

　　import org.apache.hadoop.conf.Configuration;

　　import org.apache.hadoop.fs.Path;

　　import org.apache.hadoop.io.IntWritable;

　　import org.apache.hadoop.io.Text;

　　import org.apache.hadoop.mapreduce.Job;

　　import org.apache.hadoop.mapreduce.Mapper;

　　import org.apache.hadoop.mapreduce.Reducer;

　　import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

　　import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

　　import org.apache.hadoop.util.GenericOptionsParser;

　　public class STjoin {

　　public static int time = 0;

　　* map將輸出分割child和parent，然后正序輸出一次作為右表，

　　* 反序輸出一次作為左表，需要注意的是在輸出的value中必須

　　* 加上左右表的區(qū)別標識。

　　public static class Map extends Mapper《Object， Text， Text， Text》 {

　　// 實現(xiàn)map函數(shù)

　　public void map（Object key， Text value， Context context）

　　throws IOException， InterruptedException {

　　String childname = new String（）;// 孩子名稱

　　String parentname = new String（）;// 父母名稱

　　String relationtype = new String（）;// 左右表標識

　　// 輸入的一行預處理文本

　　StringTokenizer itr=new StringTokenizer（value.toString（））;

　　String［］ values=new String［2］;

　　int i=0;

　　while（itr.hasMoreTokens（））{

　　values［i］=itr.nextToken（）;

　　i++;

　　}

　　if （values［0］.compareTo（“child”）！= 0） {

　　childname = values［0］;

　　parentname = values［1］;

　　// 輸出左表

　　relationtype = “1”;

　　context.write（new Text（values［1］）， new Text（relationtype +

　　“+”+ childname + “+” + parentname））;

　　// 輸出右表

　　relationtype = “2”;

　　context.write（new Text（values［0］）， new Text（relationtype +

　　“+”+ childname + “+” + parentname））;

　　}

　　public static class Reduce extends Reducer《Text， Text， Text， Text》 {

　　// 實現(xiàn)reduce函數(shù)

　　public void reduce（Text key， Iterable《Text》 values， Context context）

　　throws IOException， InterruptedException {

　　// 輸出表頭

　　if （0 == time） {

　　context.write（new Text（“grandchild”）， new Text（“grandparent”））;

　　time++;

　　}

　　int grandchildnum = 0;

　　String［］ grandchild = new String［10］;

　　int grandparentnum = 0;

　　String［］ grandparent = new String［10］;

　　Iterator ite = values.iterator（）;

　　while （ite.hasNext（）） {

　　String record = ite.next（）.toString（）;

　　int len = record.length（）;

　　int i = 2;

　　if （0 == len） {

　　continue;

　　}

　　// 取得左右表標識

　　char relationtype = record.charAt（0）;

　　// 定義孩子和父母變量

　　String childname = new String（）;

　　String parentname = new String（）;

　　// 獲取value-list中value的child

　　while （record.charAt（i）！= ‘+’） {

　　childname += record.charAt（i）;

　　i++;

　　}

　　i = i + 1;

　　// 獲取value-list中value的parent

　　while （i 《 len） {

　　parentname += record.charAt（i）;

　　i++;

　　}

　　// 左表，取出child放入grandchildren

　　if （‘1’ == relationtype） {

　　grandchild［grandchildnum］ = childname;

　　grandchildnum++;

　　}

　　// 右表，取出parent放入grandparent

　　if （‘2’ == relationtype） {

　　grandparent［grandparentnum］ = parentname;

　　grandparentnum++;

　　}

　　// grandchild和grandparent數(shù)組求笛卡爾兒積

　　if （0 ！= grandchildnum && 0 ！= grandparentnum） {

　　for （int m = 0; m 《 grandchildnum; m++） {

　　for （int n = 0; n 《 grandparentnum; n++） {

　　// 輸出結(jié)果

　　context.write（new Text（grandchild［m］）， newText（grandparent［n］））;

　　}

　　public static void main（String［］ args） throws Exception {

　　Configuration conf = new Configuration（）;

　　// 這句話很關(guān)鍵

　　conf.set（“mapred.job.tracker”， “192.168.1.2:9001”）;

　　String［］ ioArgs = new String［］ { “STjoin_in”， “STjoin_out” };

　　String［］ otherArgs = new GenericOptionsParser（conf， ioArgs）.getRemainingArgs（）;

　　if （otherArgs.length ！= 2） {

　　System.err.println（“Usage： Single Table Join 《in》《out》”）;

　　System.exit（2）;

　　}

　　Job job = new Job（conf， “Single Table Join”）;

　　job.setJarByClass（STjoin.class）;

　　// 設(shè)置Map和Reduce處理類

　　job.setMapperClass（Map.class）;

　　job.setReducerClass（Reduce.class）;

　　// 設(shè)置輸出類型

　　job.setOutputKeyClass（Text.class）;

　　job.setOutputValueClass（Text.class）;

　　// 設(shè)置輸入和輸出目錄

　　FileInputFormat.addInputPath（job， new Path（otherArgs［0］））;

　　FileOutputFormat.setOutputPath（job， new Path（otherArgs［1］））;

　　System.exit（job.waitForCompletion（true）？ 0 ： 1）;

　　}

　　4.4 代碼結(jié)果

　　1）準備測試數(shù)據(jù)

　　通過Eclipse下面的“DFS Locations”在“/user/hadoop”目錄下創(chuàng)建輸入文件“STjoin_in”文件夾（備注：“STjoin_out”不需要創(chuàng)建。）如圖4.4-1所示，已經(jīng)成功創(chuàng)建。

　　? mapreduce編程實例

　　然后在本地建立一個txt文件，通過Eclipse上傳到“/user/hadoop/STjoin_in”文件夾中，一個txt文件的內(nèi)容如“實例描述”那個文件一樣。如圖4.4-2所示，成功上傳之后。

　　從SecureCRT遠處查看“Master.Hadoop”的也能證實我們上傳的文件，顯示其內(nèi)容如圖4.4-3所示：

　　? mapreduce編程實例

　　2）運行詳解

　　（1）Map處理：

　?。?）Shuffle處理

　　在shuffle過程中完成連接。

　?。?）Reduce處理

　　首先由語句“0 ！= grandchildnum && 0 ！= grandparentnum”得知，只要在“value-list”中沒有左表或者右表，則不會做處理，可以根據(jù)這條規(guī)則去除無效的shuffle連接。

　　然后根據(jù)下面語句進一步對有效的shuffle連接做處理。

　　// 左表，取出child放入grandchildren

　　if （‘1’ == relationtype） {

　　grandchild［grandchildnum］ = childname;

　　grandchildnum++;

　　}

　　// 右表，取出parent放入grandparent

　　if （‘2’ == relationtype） {

　　grandparent［grandparentnum］ = parentname;

　　grandparentnum++;

　　}

　　針對一條數(shù)據(jù)進行分析：

　　《Jack，1+Tom+Jack，

　　1+Jone+Jack，

　　2+Jack+Alice，

　　2+Jack+Jesse 》

　　分析結(jié)果：左表用“字符1”表示，右表用“字符2”表示，上面的《key，value-list》中的“key”表示左表與右表的連接鍵。而“value-list”表示以“key”連接的左表與右表的相關(guān)數(shù)據(jù)。

　　根據(jù)上面針對左表與右表不同的處理規(guī)則，取得兩個數(shù)組的數(shù)據(jù)。

　　然后根據(jù)下面語句進行處理。

　　for （int m = 0; m 《 grandchildnum; m++） {

　　for （int n = 0; n 《 grandparentnum; n++） {

　　context.write（new Text（grandchild［m］）， new Text（grandparent［n］））;

　　}

　　處理結(jié)果如下面所示：

　　Tom Jesse

　　Tom Alice

　　Jone Jesse

　　Jone Alice

　　其他的有效shuffle連接處理都是如此。

　　3）查看運行結(jié)果

　　這時我們右擊Eclipse 的“DFS Locations”中“/user/hadoop”文件夾進行刷新，這時會發(fā)現(xiàn)多出一個“STjoin_out”文件夾，且里面有3個文件，然后打開雙其“part-r-00000”文件，會在Eclipse中間把內(nèi)容顯示出來。如圖4.4-4所示。

　　? mapreduce編程實例

閱讀全文

MapReduce(6251) MapReduce(6251)

21個三菱PLC編程實例

21個三菱PLC編程實例，實現(xiàn)PLC從入門到精通

2022-10-25 09:27:04

7064

51的c編程實例

2012-08-11 16:46:29

MapReduce實例開發(fā)指南

MapReduce實例——wordcount（單詞統(tǒng)計）

2019-10-08 07:15:48

MapReduce數(shù)據(jù)壓縮的基本原則

黑猴子的家：MapReduce數(shù)據(jù)壓縮

2019-05-24 12:45:46

MapReduce框架音樂排行榜案例

Hadoop綜合實戰(zhàn)之MapReduce運算優(yōu)化——音樂排行榜

2019-10-16 12:20:15

MapReduce的三種運行模式

第二章關(guān)于MapReduce

2019-03-26 06:32:50

MapReduce的操作案例分析

一、MapReduce概述1、基本概念Hadoop核心組件之一：分布式計算的方案MapReduce，是一種編程模型，用于大規(guī)模數(shù)據(jù)集的并行運算，其中Map（映射）和Reduce（歸約

2021-01-05 17:01:44

MapReduce綜述

的午餐11.2 串行與并行編程21.3 并行基本概念22 MapReduce基本原理介紹52.1 計算單詞數(shù)WordCount 62.2 類型72.3 其它實例73 MapReduce實現(xiàn)83.1

2010-09-18 08:31:59

編程實例供大家參考

搜集的一些編程實例供大家參考

2012-04-20 13:17:59

編程實例說明

編程實例說明初學者的資料

2013-05-27 20:53:56

LABVIEW編程實例

LABVIEW編程實例?。。?！

2013-12-21 18:58:37

MaxCompute MapReduce

摘要：大數(shù)據(jù)計算服務(wù)(MaxCompute)的功能詳解和使用心得點此查看原文：http://click.aliyun.com/m/41384/前言MapReduce已經(jīng)有文檔，用戶可以參考文檔

2018-01-31 17:08:45

PLC編程實例

2012-08-20 19:28:00

TLC1549的實例應(yīng)用及編程有哪些？

什么是TLC1549？TLC1549的工作原理是什么？TLC1549的實例應(yīng)用及編程有哪些？

2021-04-22 07:19:13

Yarn的偽分布部署步驟及MapReduce簡單使用

偽分布式部署yarn和MapReduce案例

2019-03-05 16:01:15

labview編程實例

編程實例，可供參考

2015-05-17 16:31:51

中斷編程實例

各種中斷編程實例，看完中斷編程毫無壓力……

2014-05-20 21:52:04

值得一看的MapReduce編程實例

MapReduce編程實例

2019-03-05 16:55:22

請問有基于USART IAP在線應(yīng)用編程的實例嗎？

有沒有基于USARTIAP在線應(yīng)用編程的實例啊.

2019-05-16 04:08:01

VISA編程及應(yīng)用實例

VISA編程及應(yīng)用實例 1、VISA編程概要在VISA編程過程中，面向儀器的所有操作都必須首先進行打開VISA資源

2009-06-22 12:25:05

5862

C語言與MATLAB接口編程與實例

本書以簡潔的語言、豐富的實例系統(tǒng)地介紹了C語言與 MATLAB 接口函數(shù)(稱之為：C-MEX函數(shù))的編程方法。用實例詳細地介紹了MATLAB中所提供的數(shù)據(jù)類型在C-MEX函數(shù)中的編程方法。這些數(shù)據(jù)類

2011-08-08 11:23:00

abb_plc_500編程軟件使用實例

abb_plc_500編程軟件使用實例abb_plc_500編程軟件使用實例abb_plc_500編程軟件使用實例

2015-11-12 14:36:41

單片機C語言編程與實例

單片機C語言編程與實例學習單片機開發(fā)非常不錯的資料。

2016-01-11 14:50:21

單片機編程實例大全

受錄了多種實例的單片機編程，非常實用，與大家分享。

2016-03-23 17:06:41

PLC的原理、編程與應(yīng)用（實例）

PLC的原理、編程與應(yīng)用（實例）希望對大家有幫助

2016-08-03 18:20:02

Linux網(wǎng)絡(luò)編程實例詳解

網(wǎng)絡(luò)通訊教程學習之Linux網(wǎng)絡(luò)編程實例詳解

2016-09-01 14:55:49

VC_MFC編程實例

這是一個VC_MFC編程實例的文檔。學習教程。

2016-09-01 15:27:27

FX編程實例

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-07 15:24:16

光標切_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

供水_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

攻牙機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 16:02:59

廣告燈_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

廣州正佳廣場_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

家用程控_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

佳信達克爾布斯膠訂機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

漿紗機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

交通燈__PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

接菌機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

開箱機程式_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

開平機程序_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

九層九站電梯_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

開料鋸_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

空壓機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 16:10:18

克爾布斯膠訂機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

拉絲_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

控制行車_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:01:36

離子水__PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

六層六站電梯_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

硫化機__PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

零帶_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

魯式集塵機程式_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:37:00

馬達控制_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:37:00

瑪斯蘭貳廠壹期_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:37:00

噴涂_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

泡沫機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

氣壓控制_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

坡口銑床程序_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

搶答器_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

揉紋車間電梯編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:25:19

三菱PLC編程實例-A1S68AD

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 16:59:02

三菱PLC編程實例-FXComms.

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-04-27 15:13:32

三菱PLC編程實例-Fat Coater b

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:09:03

三菱PLC編程實例-DST for FX

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:09:03

三菱PLC編程實例-Daylight Savings Time

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-Brick Crane v5

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 17:07:45

三菱PLC編程實例-Analog Write

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-FX2N communicating to

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-Analog Read

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-Daylight Savings Time

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-PID[1].FX2N

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-Pick and Place

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-Mitsubishi Timer Examp

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-osp2 plc

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-osp1

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-pid

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 17:09:04

179

三菱PLC編程實例-Medoc sequence generat

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-jq

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-time

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-純水

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-Q[1].AD.DA

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱編程實例

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-12-10 14:58:28

C#編程實例與技巧

2017-01-02 19:57:54

基于MapReduce和矩陣的頻繁項集挖掘算法

基于MapReduce和矩陣的頻繁項集挖掘算法_周國軍

2017-01-07 18:39:17

Python編程實例

2017-01-08 14:14:39

MapReduce框架下的Skyline結(jié)果優(yōu)化算法_馬學森

MapReduce框架下的Skyline結(jié)果優(yōu)化算法_馬學森

2017-03-19 11:41:51

Mapreduce下改進Skyline的高效算法_劉建邦

Mapreduce下改進Skyline的高效算法_劉建邦

2017-03-19 18:58:18

MapReduce的誤差反向傳播算法

針對誤差反向傳播（BP）算法計算迭代的特點，給出了迭代式MapReduce框架實現(xiàn)BP算法的方法。迭代式MapReduce框架在傳統(tǒng)MapReduce框架上添加了傳送模塊，避免了傳統(tǒng)框架運用在迭代

2017-12-20 16:39:37

多階段劃分的MapReduce模型

針對已有的MapReduce模型階段劃分粒度不合理導致模型精度和復雜度存在的問題，提出了階段劃分粒度為5的多階段MapReduce模型（MR-Model）。首先綜述了MapReduce模型的研究現(xiàn)狀

2017-12-27 11:48:35

什么是mapreduce_mapreduce工作原理_mapreduce_mapreduce邏輯模型圖

Mapreduce概況 MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運算。概念Map（映射）和Reduce（歸約），是它們的主要思想，都是從函數(shù)式編程語言里借來的，還有

2018-01-02 10:39:34

24973

詳解MapReduce的模式、算法和用例

本文總結(jié)了幾種網(wǎng)上或者論文中常見的MapReduce模式和算法，并系統(tǒng)化的解釋了這些技術(shù)的不同之處。所有描述性的文字和代碼都使用了標準hadoop的MapReduce模型，包括Mappers， Reduces， Combiners， Partitioners，和 sorting。下面我將一一進行分析。

2018-01-02 11:31:32

2233