1. 개요대규모 데이터를 빠르고 안전하게 처리하기 위한 분산 컴퓨팅 엔진. ETL 작업의 표준 도구 중 하나임.정의 — 클러스터 환경에서 대용량 데이터를 인메모리 방식으로 병렬 처리하는 오픈소스 프레임워크등장 배경 — 빅데이터 처리를 위해 하둡(Hadoop), MapReduce 등이 출현했으나 디스크 I/O로 인한 속도 저하가 발생 → 이를 해결하기 위해 등장위치 — 데이터 엔지니어링에서 대용량 데이터를 다룰 때의 표준 스펙으로 자리잡음 (현재도 계속 변화 중)1.1 특징등장 시점 — 2010년언어 — 내부적으로 Scala로 작동, Scala를 래핑하여 Python/Java/R API 제공성능 — 하둡 대비 빅데이터 처리 속도가 100배 이상 빠름2. 아키텍처Spark는 4가지 핵심 컴포넌트로 구성된 분..