Hadoop(하둡) 설치 및 시작 따라하기

Hadoop 설치 및 시작하기

이번에 회사에서 하둡 설치를 하게 되었다.

서버나 DB관련 지식은 거의 없지만, 모르면 배우면서 해야지뭐...

정리한다는 개념으로 포스팅하는 것이니 주관적인 해석을 100% 믿지는 마시길

자, 이론은 머리아프니 실습으로 바로 들어가보자.

Hadoop 의 구축 방법으로는

단독 작업 모드 (Stand-Alone Operation), 가상 분산 모드 (Pseudo-Distributed Operation), 완전 분산 모드 (Fully-Distributed Operation) 이렇게 3가지 방법이 있다.

본 포스팅에서는 가상 분산 모드(Pseudo-Distributed Operation)로 구축해 보도록 하겠다.

하둡 설치하기

아래의 아파치 하둡 페이지에서 다운로드를 받는다.

http://www.apache.org/dyn/closer.cgi/hadoop/common/

필자는 hadoop_1.1.1 버전을 받았으나, 다른 버전을 사용해도 상관없을 것이다.

tar.gz 로 끝나는 파일(hadoop-1.1.1.tar.gz)을 받으면 된다.

다운이 완료되었으면 알FTP를 통해 다운받은 파일을 전송한다.

전송이 완료되면

PuTTY 를 통해 원격접속하여 hadoop 설치를 진행하겠다.

서버에는 Ubuntu 12.04 버전이 설치되어있다.

그리고 자바는 필수적으로 설치되어 있어야 한다.(jdk1.6.x 권장)

알FTP로 전송한 hadoop-1.1.1.tar.gz가 있는 위치로 이동하여 tar파일의 압축을 푼다.

압축해제 명령어

tar -xvzf hadoop-1.1.1.tar.gz

hadoop-1.1.1.tar.gz 의 압축을 푼 것으로 설치는 완료되었다.

하둡 설치경로를 환경 변수설정 해주어야 한다.

# cd

# vi .profile

export JAVA_HOME=/usr/lib/jvm/java-6-sun

export HODOOP_INSTALL=/usr/local/hadoop-1.1.1

export PATH=$PATH:$HADOOP_INSTALL/bin

환경 설정을 적용한다.

# source .profile

가상 분산 모드(Pseudo-Distributed Operation) 설정하기

압축해제한 폴더경로로 이동하여 파일들을 살펴보면 대략 이러한 파일들이 나올것이다.

input, output 폴더는 테스트과정에서 생성된것임

xml 문서작성하기

vi 편집기를 이용하여 다음 3개의 xml 을 아래와 같이 수정한다.

vi conf/core-site.xml

vi conf/hdfs-site.xml

vi conf/mapred-site.xml

1. conf/core-site.xml

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

2. conf/hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

3. conf/mapred-site.xml

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

passphraseless ssh 설치하기

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

key 인증에 관련된 것인데, 확실하게 이해하지는 못했다.

실행하기

다음의 명령어를 차례로 입력한다.

$ mkdir input
$ cp conf/*.xml input

$ bin/hadoop namenode -format
$ bin/start-all.sh
$ bin/hadoop fs -put conf input
$ bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+'
$ bin/hadoop fs -get output output
$ cat output/*

bin/start-all.sh 입력시 정상적으로 실행된다면 아래의 목록들이 확인될 것이다.

# jps

NameNode

SecondaryNameNode

JobTracker

DataNode

TaskTracker

만약 bin/start-all.sh 입력시 'JAVA_HOME is not set' 이라는 에러가 뜬다면

$ vi conf/hadoop-env.sh 문서에서

export JAVA_HOME='자바경로' 를 입력한다.

export앞에 #은 주석처리이니 빼줄것

정상적으로 진행됬을 경우

cat output/* 입력시 결과가 출력된다.

1개의 일치하는 파일을 찾았다.

메이븐 (maven) 설치 및 이클립스 연동하기 쉬운설명 보러가기

Hadoop (하둡) wordcount 예제 소스 보러가기

hadoop (하둡) 이클립스에서 생성한 jar 파일 실행하기 보러가기

'works' 카테고리의 다른 글

이클립스에서 (java) hive thrift 연동하여 실행하기 (1)	2013.01.28
Hive (하이브) 설치 및 환경구축하기 (0)	2013.01.24
hadoop (하둡) 이클립스에서 생성한 jar 파일 실행하기 (4)	2013.01.22
Hadoop (하둡) wordcount 예제 소스 (0)	2013.01.22
메이븐 (maven) 설치 및 이클립스 연동하기 쉬운설명 (7)	2013.01.21
[JSP] 이미지(파일) 업로드 작성 예제소스 (20)	2013.01.17
ActiveX(액티브엑스) 만들기 cab 배포하기 (4)	2013.01.06
ActiveX 액티브엑스 설치 안될 경우 해결방안 (cab 배포 실패) (2)	2013.01.04
[MFC] 트레이 아이콘 (Tray Icon) 등록하기 (2)	2012.12.28
[MFC] HotKey(핫키)를 사용하여 키보드 막기 예제소스 (0)	2012.12.27

bigmark

Hadoop(하둡) 설치 및 시작 따라하기

'works' 카테고리의 다른 글

티스토리툴바

Hadoop(하둡) 설치 및 시작 따라하기

'works' 카테고리의 다른 글

관련글

티스토리툴바