'2026/05/18 글 목록

데이터 처리 4 - Apache Spark

1. 개요대규모 데이터를 빠르고 안전하게 처리하기 위한 분산 컴퓨팅 엔진. ETL 작업의 표준 도구 중 하나임.정의 — 클러스터 환경에서 대용량 데이터를 인메모리 방식으로 병렬 처리하는 오픈소스 프레임워크등장 배경 — 빅데이터 처리를 위해 하둡(Hadoop), MapReduce 등이 출현했으나 디스크 I/O로 인한 속도 저하가 발생 → 이를 해결하기 위해 등장위치 — 데이터 엔지니어링에서 대용량 데이터를 다룰 때의 표준 스펙으로 자리잡음 (현재도 계속 변화 중)1.1 특징등장 시점 — 2010년언어 — 내부적으로 Scala로 작동, Scala를 래핑하여 Python/Java/R API 제공성능 — 하둡 대비 빅데이터 처리 속도가 100배 이상 빠름2. 아키텍처Spark는 4가지 핵심 컴포넌트로 구성된 분..

SK플래닛 ai활용 데이터엔지니어 과정 2기/데이터 처리 2026.05.18

« 2026/05 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

dev-lee 님의 블로그

2026/05/18 2

티스토리툴바