클라우드 스크랩!

클라우데라!

Safeguard 2013. 3. 8. 00:22

Apache Hadoop


Hadoop Security

어떤 시스템이라도 보안 문제를 피해갈 순 없다. 많은 보안 위협에 대응하기 위해 하둡도 보안 기능이 계속해서 추가되고 있다.

클라이언트에서 사용자, 그룹 인증을 수행하지만 사용자나 그룹의 신분, 자격을 확인하지 않는다. HDFS는 0.16 버전 이후 파일과 디렉토리 접근 권한이 지원되지만 강한 인증 기능이 없기 때문에 실수로 인한 데이터 삭제를 방지하기 위한 정도일 뿐이다. 악의적인 사용자는 쉽게 다른 유저를 흉내내어 시스템에 접근할 수 있다. 심지어 HDFS 접근 후에는 맵태스크에도 접근할 수 있기 때문에 시스템에 치명적인 보안 위협이 된다.

현재 하둡은 커버로스를 통해 모든 RPC에 대해 사용자 인증을 거친다. 사용자가 속한 그룹이 해당 명령을 실행하거나 데이터에 접근가능한지도 확인을 한다. 그룹 확인은 하둡 마스터노드, 네임노드, 잡트래커, 리소스매니저에서 수행된다. 맵태스크는 잡(Job)을 실행한 사용자의 권한 아래에서 동작하기 때문에 다른 사용자가 관여할 수 없다. 하지만 "Cloudera Security Bulletin"을 확인해보면 커버로스의 취약성을 이용해 시스템에 침입하거나 파괴할 수 있는 것으로 보인다.

대부분의 하둡 환경은 신뢰성이 보장되는 클러스터로 구성되어 있기 때문에 클러스터 접근을 위한 루트(root) 권한을 얻을 수 없으며 네트워크의 패킷을 캡쳐하여 변경할 수 없다고 가정한다.

데이터 암호화는 아직 지원되지 않는다.


CDH

클라우데라에서 배포하는 하둡 패키지로 하둡과 하둡 생태계를 구성하는 다양한 오픈 소스들이 포함되어 있다.

클라우데라는 아파치 하둡 2.0을 기본으로 사용한다.

    • Apache Sqoop : RDBMS같은 SQL 서버로부터 데이터 이전

    • Apache Hive : 하둡 기반의 데이터웨어하우스로 데이터 구조화, 데이터 쿼리 등이 가능

    • Apache HBase : NoSQL 데이터 베이스

    • Apache Flume : 분산된 대용량 데이터 수집

    • Apache Pig : 데이터 분석을 표현하는 고급 언어로 데이터 처리를 간단하게 만듬

    • DataFu : Apache Pig의 UDFs를 정의한 것으로 페이지 랭크, 유니온 등 다양한 연산 지원

    • Hue : 하둡을 위한 Web UI

    • Apache Mahout : 하둡 기반의 기계학습 라이브러리

    • Apache Oozie : 하둡 워크플로우 관리

    • Apache Whirr : 클러스터 환경에서 서비스 설치, 설정, 실행 등의 자동화

    • Apache ZooKeeper : 분산 시스템을 관리하는 시스템

    • Cloudera Impala : 하둡 기반 실시간 쿼리 엔진

※ SSH 설정만 되어 있다면 하둡과 필요한 소프트웨어를 간단히 설치할 수 있다.