1. 배경 — 왜 EMR + Spark인가데이터 규모가 수 GB를 넘어 수십 GB ~ TB 단위로 커지면 단일 노드 기반 도구(pandas, polars)로는 처리 한계가 옴. 분산처리 프레임워크인 Spark가 필요해지고, 이를 실행할 클러스터 인프라로 **AWS EMR(Elastic MapReduce)**을 사용함.1.1 EMR 특징사용한 만큼만 지불 — 필요할 때 생성, 작업 완료 후 해제하는 비용 효율 구조스팟 인스턴스 지원 — 온디맨드 대비 최대 90% 비용 절감 가능 (단, 회수 위험 존재)서버리스 옵션 — EMR Serverless로 클러스터 관리 부담 제거 가능상시 vs 일회성 — 조회 주기가 짧고 빈번하면 상시 유지 또는 서버리스, 일배치성이면 일회성 구성이 유리일배치 ETL은 "필요할 때..