2026/05/19 2

데이터 처리 6 - EMR + Spark

1. 배경 — 왜 EMR + Spark인가데이터 규모가 수 GB를 넘어 수십 GB ~ TB 단위로 커지면 단일 노드 기반 도구(pandas, polars)로는 처리 한계가 옴. 분산처리 프레임워크인 Spark가 필요해지고, 이를 실행할 클러스터 인프라로 **AWS EMR(Elastic MapReduce)**을 사용함.1.1 EMR 특징사용한 만큼만 지불 — 필요할 때 생성, 작업 완료 후 해제하는 비용 효율 구조스팟 인스턴스 지원 — 온디맨드 대비 최대 90% 비용 절감 가능 (단, 회수 위험 존재)서버리스 옵션 — EMR Serverless로 클러스터 관리 부담 제거 가능상시 vs 일회성 — 조회 주기가 짧고 빈번하면 상시 유지 또는 서버리스, 일배치성이면 일회성 구성이 유리일배치 ETL은 "필요할 때..

데이터 처리 5 - Docker Spark

1. 배경 — 왜 Docker로 Spark를 띄우는가EMR을 띄우려면 비용·IAM·VPC 등 인프라 학습 부담이 큼. 학습 단계에서는 로컬에서 Spark 클러스터를 흉내 내는 환경이 필요함. Docker로 Spark Master + Worker 컨테이너를 띄우면 EMR과 동일한 분산처리 개념(파티션, executor, shuffle)을 무료로 체험 가능.1.1 EMR vs Docker Spark 비교 항목 EMR Docker Spark 환경AWS 관리형 클러스터로컬 컨테이너 클러스터비용인스턴스 사용 시간 과금무료(로컬 리소스만 사용)데이터 위치S3 중심로컬 볼륨(/opt/data)클러스터 매니저YARNSpark StandaloneMaster 접속EMR API/EC2spark://spark-mast..