_S3 2

Spark 클라우드

강의 AWS Spark AWS에서 Spark를 실행하기 위해서는 EMR(Elastic MapReduce)를 이용하는 것이 일반적입니다. "EMR"은 Hadoop의 YARN과 유사한 기능을 제공하는 AWS의 서비스 입니다. worker node : EC2 서버 HDFS : S3 실행 과정 AWS EMR 클러스터 생성 옵션 : Spark 실행 m5.xlarge 노드 3개 선택 기본 파일 시스텀 선택 : S3 마스터 노드 포트 번호 22 지정 마스터 노드를 드라이버 노드로 사용 : SSH 이용하여 로그인 PySpark 잡 코드 실행 ssh -i 프라이빗키.pen hadoop@마스터노드호스트이름 spark-submit --master yarn stackoverflow.py # stackoverflow.py fr..

AWS Part 06 S3

강의 S3 "S3"(Simple Storage Service)는 객체 스토리지 서비스 입니다. 업계 최고의 확장성, 데이터 가용성, 보안 및 성능 제공 특정 비즈니스, 조직 및 규정 준수 요구 사항에 맞게 데이터 액세스 최적화, 구조화 및 구성하는 관리 기능 제공 S3 기능 스토리지 클래스 스토리지 관리 액세스 관리 데이터 처리 스토리지 로깅 및 모니터링 분석 및 인사이트 강력한 일관성 Amazone S3의 대표적인 사용 예시는 정적 웹 사이트를 호스팅하는 것입니다. 클라이언트 측 스크립트를 포함할 수 있습니다. 그와 달리 동적 웹 사이트는 PHP, JSP 혹은 ASP.NET 등 서버 측 스크립트를 포함합니다. "버킷"은 저장된 객체에 대한 컨테이너 입니다. 모든 객체는 최소한 하나의 버킷(윈도우의 폴더..