HadoopÐ¡ÎÄ¼þÓÅ»¯

>> »¶ÓÄú ¿ÍÈË: µÇÂ¼ | ×¢²á | ÔÚÏß | ËÑË÷ | ·ç¸ñ | °ïÖú | Í³¼Æ | ÎÄÕÂ

·µ»ØÊ×Ò³

>>·ÖÏíSPSS,HadoopµÈ´óÊý¾Ý´¦Àí¼¼Êõ£¬ÒÔ¼°·Ö²¼Ê½¼Ü¹¹ÒÔ¼°¼¯ÈºÏµÍ³µÄ¹¹½¨

Êé¼®Ö§³Ö

Java¼¼ÊõÍøÕ¾ ¡ú ¡º Java¿ª·¢¼¼Êõ ¡» ¡ú ¡º ´óÊý¾Ý´¦ÀíºÍ·Ö²¼Ê½¼Ü¹¹×¨Ìâ ¡» ¡ú HadoopÐ¡ÎÄ¼þÓÅ»¯

ÄúÊÇ±¾ÎÄÕÂµÚ 25770 ¸öÔÄ¶ÁÕß

* Ìù×ÓÖ÷Ìâ: HadoopÐ¡ÎÄ¼þÓÅ»¯

µãÔÞ(0) ÊÕ²Ø

×÷Õß:ÈÕÔÂ¹â»ª ·¢±íÊ±¼ä£º2019-12-31 05:44:59

ÏûÏ¢

²é¿´

ËÑË÷

ºÃÓÑ

ÓÊ¼þ

¸´ÖÆ

ÒýÓÃ

±¾ÎÄ¸öÈË×Ü½á

ÏÈÀ´ÁË½âÒ»ÏÂHadoopÖÐºÎÎªÐ¡ÎÄ¼þ£ºÐ¡ÎÄ¼þÖ¸µÄÊÇÄÇÐ©ÎÄ¼þ´óÐ¡Òª±ÈHDFSµÄ¿é´óÐ¡(ÔÚHadoop1.xµÄÊ±ºòÄ¬ÈÏ¿é´óÐ¡64M£¬¿ÉÒÔÍ¨¹ýdfs.blocksizeÀ´ÉèÖÃ£»µ«ÊÇµ½ÁËHadoop 2.xµÄÊ±ºòÄ¬ÈÏ¿é´óÐ¡Îª128MBÁË£¬¿ÉÒÔÍ¨¹ýdfs.block.sizeÉèÖÃ)Ð¡µÄ¶àµÄÎÄ¼þ¡£Èç¹ûÔÚHDFSÖÐ´æ´¢Ð¡ÎÄ¼þ£¬ÄÇÃ´ÔÚHDFSÖÐ¿Ï¶¨»áº¬ÓÐÐíÐí¶à¶àÕâÑùµÄÐ¡ÎÄ¼þ(²»È»¾Í²»»áÓÃhadoopÁË)¡£¶øHDFSµÄÎÊÌâÔÚÓÚÎÞ·¨ºÜÓÐÐ§µÄ´¦Àí´óÁ¿Ð¡ÎÄ¼þ¡£
¡¡¡¡ÔÚHDFSÖÐ£¬ÈÎºÎÒ»¸öÎÄ¼þ£¬Ä¿Â¼ºÍblock£¬ÔÚHDFSÖÐ¶¼»á±»±íÊ¾ÎªÒ»¸öobject´æ´¢ÔÚnamenodeµÄÄÚ´æÖÐ£¬Ã¿Ò»¸öobjectÕ¼ÓÃ150 bytesµÄÄÚ´æ¿Õ¼ä¡£ËùÒÔ£¬Èç¹ûÓÐ10million¸öÎÄ¼þ£¬Ã¿Ò»¸öÎÄ¼þ¶ÔÓ¦Ò»¸öblock£¬ÄÇÃ´¾Í½«ÒªÏûºÄnamenode 3GµÄÄÚ´æÀ´±£´æÕâÐ©blockµÄÐÅÏ¢¡£Èç¹û¹æÄ£ÔÙ´óÒ»Ð©£¬ÄÇÃ´½«»á³¬³öÏÖ½×¶Î¼ÆËã»úÓ²¼þËùÄÜÂú×ãµÄ¼«ÏÞ¡£
¡¡¡¡²»½öÈç´Ë£¬HDFS²¢²»ÊÇÎªÁËÓÐÐ§µÄ´¦Àí´óÁ¿Ð¡ÎÄ¼þ¶ø´æÔÚµÄ¡£ËüÖ÷ÒªÊÇÎªÁËÁ÷Ê½µÄ·ÃÎÊ´óÎÄ¼þ¶øÉè¼ÆµÄ¡£¶ÔÐ¡ÎÄ¼þµÄ¶ÁÈ¡Í¨³£»áÔì³É´óÁ¿´Ódatanodeµ½datanodeµÄseeksºÍhoppingÀ´retrieveÎÄ¼þ£¬¶øÕâÑùÊÇ·Ç³£µÄµÍÐ§µÄÒ»ÖÖ·ÃÎÊ·½Ê½¡£

´óÁ¿Ð¡ÎÄ¼þÔÚmapreduceÖÐµÄÎÊÌâ

¡¡¡¡Map tasksÍ¨³£ÊÇÃ¿´Î´¦ÀíÒ»¸öblockµÄinput(Ä¬ÈÏÊ¹ÓÃFileInputFormat)¡£Èç¹ûÎÄ¼þ·Ç³£µÄÐ¡£¬²¢ÇÒÓµÓÐ´óÁ¿µÄÕâÖÖÐ¡ÎÄ¼þ£¬ÄÇÃ´Ã¿Ò»¸ömap task¶¼½ö½ö´¦ÀíÁË·Ç³£Ð¡µÄinputÊý¾Ý£¬²¢ÇÒ»á²úÉú´óÁ¿µÄmap tasks£¬Ã¿Ò»¸ömap task¶¼»áÏûºÄÒ»¶¨Á¿µÄbookkeepingµÄ×ÊÔ´¡£±È½ÏÒ»¸ö1GBµÄÎÄ¼þ£¬Ä¬ÈÏblock sizeÎª64M£¬ºÍ1GbµÄÎÄ¼þ£¬Ã¿Ò»¸öÎÄ¼þ100KB£¬ÄÇÃ´ºóÕßÃ»Ò»¸öÐ¡ÎÄ¼þÊ¹ÓÃÒ»¸ömap task£¬ÄÇÃ´jobµÄÊ±¼ä½«»áÊ®±¶ÉõÖÁ°Ù±¶ÂýÓÚÇ°Õß¡£
¡¡¡¡hadoopÖÐÓÐÒ»Ð©ÌØÐÔ¿ÉÒÔÓÃÀ´¼õÇáÕâÖÖÎÊÌâ£º¿ÉÒÔÔÚÒ»¸öJVMÖÐÔÊÐítask reuse£¬ÒÔÖ§³ÖÔÚÒ»¸öJVMÖÐÔËÐÐ¶à¸ömap task£¬ÒÔ´ËÀ´¼õÉÙÒ»Ð©JVMµÄÆô¶¯ÏûºÄ(Í¨¹ýÉèÖÃmapred.job.reuse.jvm.num.tasksÊôÐÔ£¬Ä¬ÈÏÎª1£¬£1ÎªÎÞÏÞÖÆ)¡£ÁíÒ»ÖÖ·½·¨ÎªÊ¹ÓÃMultiFileInputSplit£¬Ëü¿ÉÒÔÊ¹µÃÒ»¸ömapÖÐÄÜ¹»´¦Àí¶à¸ösplit¡£
¡¡¡¡ÎªÊ²Ã´»á²úÉú´óÁ¿µÄÐ¡ÎÄ¼þ£¿ÖÁÉÙÓÐÁ½ÖÖÇé¿öÏÂ»á²úÉú´óÁ¿µÄÐ¡ÎÄ¼þ£º
ÕâÐ©Ð¡ÎÄ¼þ¶¼ÊÇÒ»¸ö´óµÄÂß¼ÎÄ¼þµÄpieces¡£ÓÉÓÚHDFS½ö½öÔÚ²»¾ÃÇ°²Å¸Õ¸ÕÖ§³Ö¶ÔÎÄ¼þµÄappend£¬Òò´ËÒÔÇ°ÓÃÀ´Ïòunbounde files(ÀýÈçlogÎÄ¼þ)Ìí¼ÓÄÚÈÝµÄ·½Ê½¶¼ÊÇÍ¨¹ý½«ÕâÐ©Êý¾ÝÓÃÐí¶àchunksµÄ·½Ê½Ð´ÈëHDFSÖÐ
ÎÄ¼þ±¾Éí¾ÍÊÇºÜÐ¡¡£ÀýÈçÐíÐí¶à¶àµÄÐ¡Í¼Æ¬ÎÄ¼þ¡£Ã¿Ò»¸öÍ¼Æ¬¶¼ÊÇÒ»¸ö¶ÀÁ¢µÄÎÄ¼þ¡£²¢ÇÒÃ»ÓÐÒ»ÖÖºÜÓÐÐ§µÄ·½·¨À´½«ÕâÐ©ÎÄ¼þºÏ²¢ÎªÒ»¸ö´óµÄÎÄ¼þ
¡¡¡¡ÕâÁ½ÖÖÇé¿öÐèÒªÓÐ²»Í¬µÄ½â¾ö·½ Ê½¡£¶ÔÓÚµÚÒ»ÖÖÇé¿ö£¬ÎÄ¼þÊÇÓÉÐíÐí¶à¶àµÄrecords×é³ÉµÄ£¬ÄÇÃ´¿ÉÒÔÍ¨¹ýµ÷ÓÃHDFSµÄsync()·½·¨(ºÍappend·½·¨½áºÏÊ¹ÓÃ)À´½â ¾ö¡£»òÕß£¬¿ÉÒÔÍ¨¹ýÐ©Ò»¸ö³ÌÐòÀ´×¨ÃÅºÏ²¢ÕâÐ©Ð¡ÎÄ¼þ(see Nathan Marz's post about a tool called the Consolidator which does exactly this).
¡¡¡¡¶ÔÓÚµÚ¶þÖÖÇé¿ö£¬¾ÍÐèÒªÄ³ÖÖÐÎÊ½µÄÈÝÆ÷À´Í¨¹ýÄ³ÖÖ·½Ê½À´groupÕâÐ©file¡£hadoopÌá¹©ÁËÒ»Ð©Ñ¡Ôñ£º

HAR files
¡¡
¡¡Hadoop Archives (HAR files)ÊÇÔÚ0.18.0°æ±¾ÖÐÒýÈëµÄ£¬ËüµÄ³öÏÖ¾ÍÊÇÎªÁË»º½â´óÁ¿Ð¡ÎÄ¼þÏûºÄnamenodeÄÚ´æµÄÎÊÌâ¡£HARÎÄ¼þÊÇÍ¨¹ýÔÚHDFSÉÏ¹¹½¨Ò»¸ö²ã´Î»¯µÄÎÄ¼þÏµÍ³À´¹¤×÷¡£Ò»¸öHARÎÄ¼þÊÇÍ¨¹ýhadoopµÄarchiveÃüÁîÀ´´´½¨£¬¶øÕâ¸öÃüÁîÊµ ¼ÊÉÏÒ²ÊÇÔËÐÐÁËÒ»¸öMapReduceÈÎÎñÀ´½«Ð¡ÎÄ¼þ´ò°ü³ÉHAR¡£¶ÔÓÚclient¶ËÀ´Ëµ£¬Ê¹ÓÃHARÎÄ¼þÃ»ÓÐÈÎºÎÓ°Ïì¡£ËùÓÐµÄÔÊ¼ÎÄ¼þ¶¼ visible && accessible£¨using har://URL£©¡£µ«ÔÚHDFS¶ËËüÄÚ²¿µÄÎÄ¼þÊý¼õÉÙÁË¡£
¡¡¡¡Hadoop¹ØÓÚ´¦Àí´óÁ¿Ð¡ÎÄ¼þµÄÎÊÌâºÍ½â¾ö·½·¨ - nicoleamanda - Ö»ÊÇÏëÒª¼òµ¥µÄÉú»îÍ¨¹ýHARÀ´¶ÁÈ¡Ò»¸öÎÄ¼þ²¢²»»á±ÈÖ±½Ó´ÓHDFSÖÐ¶ÁÈ¡ÎÄ¼þ¸ßÐ§£¬¶øÇÒÊµ¼ÊÉÏ¿ÉÄÜ»¹»áÉÔÎ¢µÍÐ§Ò»µã£¬ÒòÎª¶ÔÃ¿Ò»¸öHARÎÄ¼þµÄ·ÃÎÊ¶¼ÐèÒªÍê³ÉÁ½²ãindex ÎÄ¼þµÄ¶ÁÈ¡ºÍÎÄ¼þ±¾ÉíÊý¾ÝµÄ¶ÁÈ¡(¼ûÉÏÍ¼)¡£²¢ÇÒ¾¡¹ÜHARÎÄ¼þ¿ÉÒÔ±»ÓÃÀ´×÷ÎªMapReduce jobµÄinput£¬µ«ÊÇ²¢Ã»ÓÐÌØÊâµÄ·½·¨À´Ê¹maps½«HARÎÄ¼þÖÐ´ò°üµÄÎÄ¼þµ±×÷Ò»¸öHDFSÎÄ¼þ´¦Àí¡£ ¿ÉÒÔ¿¼ÂÇÍ¨¹ý´´½¨Ò»ÖÖinput format£¬ÀûÓÃHARÎÄ¼þµÄÓÅÊÆÀ´Ìá¸ßMapReduceµÄÐ§ÂÊ£¬µ«ÊÇÄ¿Ç°»¹Ã»ÓÐÈË×÷ÕâÖÖinput format¡£ ÐèÒª×¢ÒâµÄÊÇ£ºMultiFileInputSplit£¬¼´Ê¹ÔÚHADOOP-4565µÄ¸Ä½ø(choose files in a split that are node local)£¬µ«Ê¼ÖÕ»¹ÊÇÐèÒªseek per small file¡£

Sequence Files
¡¡
¡¡Í¨³£¶ÔÓÚ¡°the small files problem¡±µÄ»ØÓ¦»áÊÇ£ºÊ¹ÓÃSequenceFile¡£ÕâÖÖ·½·¨ÊÇËµ£¬Ê¹ÓÃfilename×÷Îªkey£¬²¢ÇÒfile contents×÷Îªvalue¡£Êµ¼ùÖÐÕâÖÖ·½Ê½·Ç³£¹ÜÓÃ¡£»Øµ½10000¸ö100KBµÄÎÄ¼þ£¬¿ÉÒÔÐ´Ò»¸ö³ÌÐòÀ´½«ÕâÐ©Ð¡ÎÄ¼þÐ´Èëµ½Ò»¸öµ¥¶ÀµÄ SequenceFileÖÐÈ¥£¬È»ºó¾Í¿ÉÒÔÔÚÒ»¸östreaming fashion(directly or using mapreduce)ÖÐÀ´Ê¹ÓÃÕâ¸ösequenceFile¡£²»½öÈç´Ë£¬SequenceFilesÒ²ÊÇsplittableµÄ£¬ËùÒÔmapreduce ¿ÉÒÔbreak them into chunks£¬²¢ÇÒ·Ö±ðµÄ±»¶ÀÁ¢µÄ´¦Àí¡£ºÍHAR²»Í¬µÄÊÇ£¬ÕâÖÖ·½Ê½»¹Ö§³ÖÑ¹Ëõ¡£blockµÄÑ¹ËõÔÚÐí¶àÇé¿öÏÂ¶¼ÊÇ×îºÃµÄÑ¡Ôñ£¬ÒòÎªËü½«¶à¸ö recordsÑ¹Ëõµ½Ò»Æð£¬¶ø²»ÊÇÒ»¸örecordÒ»¸öÑ¹Ëõ¡£
½«ÒÑÓÐµÄÐí¶àÐ¡ÎÄ¼þ×ª»»³ÉÒ»¸öSequenceFiles¿ÉÄÜ»á±È½ÏÂý¡£µ«ÊÇ£¬ÍêÈ«ÓÐ¿ÉÄÜÍ¨¹ý²¢ÐÐµÄ·½Ê½À´´´½¨Ò»¸öÒ»ÏµÁÐµÄSequenceFiles¡£(Stuart Sierra has written a very useful post about converting a tar file into a SequenceFile ¡ª tools like this are very useful).¸ü½øÒ»²½£¬Èç¹ûÓÐ¿ÉÄÜ×îºÃÉè¼Æ×Ô¼ºµÄÊý¾ÝpipelineÀ´½«Êý¾ÝÖ±½ÓÐ´ÈëÒ»¸öSequenceFile¡£

³ÌÐòÔ³µÄ¼¼Êõ´ó¹ÛÔ°£ºwww.javathinker.net

Java¾«Æ·Êé¼®ÍÆ¼ö

Java×îÐÂÊÓÆµ½Ì³ÌÍÆ¼ö

JavaÃæÏò¶ÔÏó±à³Ì-->·ºÐÍ

JavaWeb¿ª·¢-->Servlet¼¼ÊõÏê½â£¨¢ò£©

JSPÓëHibernate¿ª·¢-->Ó³ÉäÒ»¶Ô¶à¹ØÁª¹ØÏµ

JavaÍøÂç±à³Ì-->»ùÓÚMVCºÍRMIµÄ·Ö²¼Ê½Ó¦ÓÃ

¾«Í¨Spring-->¼ÆËãÊôÐÔºÍÊý¾Ý¼àÌý

Vue3¿ª·¢-->Vue×é¼þ¿ª·¢»ù´¡

±¾Õ¾ÆäËûÏà¹ØÎÄÕÂ

Spark¿Í»§¶ËÖ®Spark SubmitµÄÊ¹ÓÃ

30ËêÅ®IT¹¤³ÌÊ¦¸ÐÌ¾£º¿¿Õâ¹¤¾ß£¬°Ñ±¨±í×ö³ÉÑøÀÏ¹¤×÷£¬ÔÂÐ½¿ì...

´óÊý¾Ý´æ´¢µ¥Î»½éÉÜ(TB¡¢PB¡¢EB¡¢ZB¡¢YBÓÐ¶à´ó)

demo2 Kafka+Spark Streaming+RedisÊµÊ±¼ÆËãÕûºÏÊµ¼ù foreac...

kafka+spark-streamingÊµÊ±ÍÆ¼öÏµÍ³ÐÔÄÜÓÅ»¯±Ê¼Ç

playbook×Ô¶¯°²×°kafka¼¯Èº

MapReduce×Ô¶¨Òå·ÖÇøÊµÏÖ

ÉîÈëÍæ×ªK8SÖ®Ê¹ÓÃkubeadm°²×°Kubernetes v1.10ÒÔ¼°³£¼ûÎÊÌâ...

spark DAGScheduler¡¢TaskSchedule¡¢ExecutorÖ´ÐÐtaskÔ´Âë·Ö...

´óÊý¾ÝÆ½Ì¨CDH´î½¨

´óÊý¾ÝµÄÑ§Ï°·½Ïò

Ñ§Ï°´óÊý¾Ý´¦ÀíÐèÒªÕÆÎÕµÄ¼¼ÄÜ

ÉîÈëÀí½âMapReduceµÄ¼Ü¹¹ºÍÔÀí

HadoopÉúÌ¬ÏµÍ³½éÉÜ

¸ü¶à...

IP: ÒÑÉèÖÃ±£ÃÜ

Â¥Ö÷

¹²1Ò³ 0Ìõ¼ÇÂ¼ µ±Ç°µÚ1Ò³

ÖÐÎÄ°æÈ¨ËùÓÐ£º JavaThinker¼¼ÊõÍøÕ¾ Copyright 2016-2026 »¦ICP±¸16029593ºÅ-2
ÜöÝÍJava³ÌÐòÔ±ÖÇ»ÛµÄ½á¾§£¬·ÖÏí½»Á÷JavaÇ°ÑØ¼¼Êõ¡£ ÁªÏµÎÒÃÇ
ÈçÓÐ¼¼ÊõÎÄÕÂÉæ¼°ÇÖÈ¨£¬ÇëÓë±¾Õ¾¹ÜÀíÔ±ÁªÏµ¡£