_EC2 2

Spark 클라우드

강의 AWS Spark AWS에서 Spark를 실행하기 위해서는 EMR(Elastic MapReduce)를 이용하는 것이 일반적입니다. "EMR"은 Hadoop의 YARN과 유사한 기능을 제공하는 AWS의 서비스 입니다. worker node : EC2 서버 HDFS : S3 실행 과정 AWS EMR 클러스터 생성 옵션 : Spark 실행 m5.xlarge 노드 3개 선택 기본 파일 시스텀 선택 : S3 마스터 노드 포트 번호 22 지정 마스터 노드를 드라이버 노드로 사용 : SSH 이용하여 로그인 PySpark 잡 코드 실행 ssh -i 프라이빗키.pen hadoop@마스터노드호스트이름 spark-submit --master yarn stackoverflow.py # stackoverflow.py fr..

AWS Part 02 EC2

강의 EC2 개요 "ED2"는 AWS에서 가장 보편적으로 사용되는 서버를 할당받는 서비스 입니다. 가상 컴퓨팅 환경을 인스턴스라고 하며 Amazon 머신 이미지(AMI)를 이용하여 인스턴스를 만들 수 있습니다. 키 페어를 사용해 로그인할 수 있습니다. 임시 데이터를 저장하는 인스턴스 스토어 볼륨은 인스턴스를 중단, 최대 절전 모드 전환 혹은 종료 시에 삭제됩니다. 영구 저장하기 위해서는 Amazon Elastic Block Store(Amazon EBS)를 이용해야 합니다. 보안 그룹을 통해 인스턴스에 연결할 수 있는 프로토콜, 포트, 소스 IP 범위를 지정하는 방화벽 기능을 이용할 수 있습니다. 동적 클라우드 컴퓨팅에서 인스턴스를 추가/삭제 하더라도 고정적인 IP 주소를 사용하기 위해 탄력적 IP 주소..