'2026/05/19 글 목록

데이터 처리 6 - EMR + Spark

1. 배경 — 왜 EMR + Spark인가데이터 규모가 수 GB를 넘어 수십 GB ~ TB 단위로 커지면 단일 노드 기반 도구(pandas, polars)로는 처리 한계가 옴. 분산처리 프레임워크인 Spark가 필요해지고, 이를 실행할 클러스터 인프라로 **AWS EMR(Elastic MapReduce)**을 사용함.1.1 EMR 특징사용한 만큼만 지불 — 필요할 때 생성, 작업 완료 후 해제하는 비용 효율 구조스팟 인스턴스 지원 — 온디맨드 대비 최대 90% 비용 절감 가능 (단, 회수 위험 존재)서버리스 옵션 — EMR Serverless로 클러스터 관리 부담 제거 가능상시 vs 일회성 — 조회 주기가 짧고 빈번하면 상시 유지 또는 서버리스, 일배치성이면 일회성 구성이 유리일배치 ETL은 "필요할 때..

SK플래닛 ai활용 데이터엔지니어 과정 2기/데이터 처리 2026.05.19

« 2026/05 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

dev-lee 님의 블로그

2026/05/19 2

티스토리툴바