Tuesday, April 19, 2011

Hadoop Basic

이 글은 WIKIPEDIA에 있는 Apache Hadoop을 번역한 것이며 전체 번역이 아님을 밝힙니다.

[Hadoop Common]
Hadoop에 의해 지원되는 파일시스템의 접근 방법을 제공한다. 관련 JAR 파일들로 구성되어 있으며 Hadoop을 구동하기 위해 필요한 스크립트들로 구성되어 있다. Hadoop Community에서 관련 리소스 모두 제공

작업의 효과적인 스케줄링을 위한 주요 특징은 다음과 같다.
모든 파일시스템은 반드시 location awareness를 제공해야 한다.
[Name of RACK] Worker node가 있는 곳이 RACK의 이름, 즉 네트워크 스위치의 이름이다.
Hadoop application은 이 이름을 통해 데이터가 있는 노드 또는 그 노드에서 작업이 실패한 경우 동일한 RACK/SWITCH에서 동작할 수 있기 때문에 백본 트래픽을 감소시키는 효과가 있다.
HDFS는 데이터 복제를 위해 이것을 사용한다. 복제를 하는 이유는 만약의 사태(정전 등)를 대비하기 위함이다.

[Hadoop Cluster]
일반적인 Hadoop 클러스터는 하나의 마스터와 여러개의 슬레이브 노드로 구성된다.
마스터 노드는 jobtracker, tasktracker, namenode, datanode로 구성된다.
슬레이브 노드(또는 compute node)는 datanode, tasktracker로 구성된다.

[구동환경]
Hadoop은 JRE 1.6 이상에서 동작한다. 표준 구동 및 종료 스크립트는 cluster내의 node들 사이에서 셋업을 수행하기 위한 ssh가 필요하다.(즉 각 노드에 ssh를 열어 두어야 한다.)

No comments: