2026/05/18 2

데이터 처리 4 - Apache Spark

1. 개요대규모 데이터를 빠르고 안전하게 처리하기 위한 분산 컴퓨팅 엔진. ETL 작업의 표준 도구 중 하나임.정의 — 클러스터 환경에서 대용량 데이터를 인메모리 방식으로 병렬 처리하는 오픈소스 프레임워크등장 배경 — 빅데이터 처리를 위해 하둡(Hadoop), MapReduce 등이 출현했으나 디스크 I/O로 인한 속도 저하가 발생 → 이를 해결하기 위해 등장위치 — 데이터 엔지니어링에서 대용량 데이터를 다룰 때의 표준 스펙으로 자리잡음 (현재도 계속 변화 중)1.1 특징등장 시점 — 2010년언어 — 내부적으로 Scala로 작동, Scala를 래핑하여 Python/Java/R API 제공성능 — 하둡 대비 빅데이터 처리 속도가 100배 이상 빠름2. 아키텍처Spark는 4가지 핵심 컴포넌트로 구성된 분..

2026.05.18 AI 뉴스

1. Anthropic, "Claude는 광고 없는 사고 공간으로 남는다" 공식화Anthropic이 최근 블로그 포스트 *"Claude is a space to think"*를 통해 Claude를 영구적으로 광고 없는 제품으로 유지하겠다는 방침을 재확인했습니다.회사 측은 "Claude 대화 옆에 'sponsored' 링크가 노출되거나, 광고주에 의해 응답이 영향을 받거나, 사용자가 요청하지 않은 제3자 제품 배치(product placement)가 포함되는 일은 없을 것"이라고 밝혔습니다.핵심 논리는 검색 결과 목록과 달리 LLM 응답에 광고가 섞이면 "이 추천이 진짜 도움을 주려는 것인지, 상업적 동기가 있는 것인지" 사용자가 구별하기 어렵다는 점입니다. Anthropic은 광고 기반 비즈니스 모델의 ..

AI 뉴스 2026.05.18