분류 전체보기 93

Kafka 개념 정리 + CLI 테스트

Kafka란데이터를 흘려 보내는 이벤트 파이프라인임. 프로듀서(이벤트 발송)와 컨슈머(이벤트 수신) 구조로 동작함.예시: 고객이 배민앱에서 주문(이벤트 발생) → 매장에 알림(이벤트 수신) → 점주가 주문 수락(이벤트 처리)MSA 아키텍처에서 서로 떨어진 서비스 간 비동기 통신에 활용됨공급자(Producer)와 구독자(Consumer) 포지션으로 구성됨시간 지연 없이, 용량 제한 없이 전송 가능docker-compose.yaml로 간단하게 구성 가능핵심 구성 요소 구성 역할 설명 Producer발송인데이터를 생산하고 Consumer에게 전송하는 주체. 실시간 데이터 전송/수집/처리 담당Consumer수취인Kafka의 데이터를 받아 소비하는 주체. Kafka 앞에 구성되거나 생략·내장될 수 있음Ev..

OpenSearch 개념 정리

ELK Stack 개요ELK는 Elasticsearch, Logstash, Kibana의 약자로, 실시간 대규모 로그 데이터를 수집·검색·시각화하는 오픈소스 기술 세트임.Elasticsearch (E) : 빠른 분산 검색 엔진. 분당 수억 건의 로그에서 특정 조건(예: "어제 15시에 센서 온도 250도 초과")을 1초 미만으로 검색 가능Logstash (L) : 수집된 로그에서 노이즈 제거(필터링), 전처리(정규식 등)를 수행하여 JSON/텍스트 형태로 가공 후 Elasticsearch로 전달Kibana (K) : 대시보드 시각화 → 관제/모니터링 → 실시간 보안·통제·운용·관리 등에 활용ELK/EFK에서 L은 Logstash, F는 Fluent Bit을 의미함.AWS OpenSearch란Elastic..

Medallion Architecture - 5 — Gold Layer 구현

Silver 데이터를 집계/요약하여 경영진/실무자가 바로 의사결정에 활용할 수 있는 최종 데이터셋을 구성하는 레이어Gold Layer 목표대시보드/보고서 — 의사결정을 즉시 수행할 수 있는 요약 데이터AI - ML/DL — 모델 학습에 바로 적용 가능한 데이터AI - LLM/RAG — 벡터 DB 삽입, 검색증강생성(RAG) 등에 활용할 수 있는 수준의 데이터상황에 따라 메달리온 아키텍처의 단계를 단축할 수 있음.Gold 테이블 구성 방식 — 고정 테이블 vs 뷰고정 테이블 (CTAS / INSERT INTO)물리적으로 테이블을 구성하는 방식. 장점 단점 데이터가 이미 계산되어 저장됨 → 조회 속도 빠름테이블 생성 이후 추가되는 데이터 미반영, (테이블 생성 이후 추가되는 데이터를 테이블은 모름)대시보드..

Medallion Architecture - 4 — Silver DAG 코드 구현

Airflow DAG + Athena SQL로 Bronze의 중첩 데이터를 Flatten/정제하여 Silver 테이블에 적재하는 두 가지 방식 — CTAS(전체 교체)와 증분(누적 INSERT)CTAS 기반 DAG — 11_aws_ma_silver.py매 실행마다 Silver 테이블을 삭제 후 CTAS로 재생성하여, 항상 최신 스냅샷 상태를 유지하는 방식.전체 구조DAG: 11_medallion_bronze_to_silver_ctas 스케줄: 10 * * * * (매시 10분) ├─ Task 1: drop_silver_tbl → Silver 테이블 DROP └─ Task 2: ctas_silver → CTAS로 Bronze SELECT → Silver 테이블 생성 ..

Medallion Architecture - 3 — Silver Layer

Bronze Layer의 복잡한 중첩 구조/지저분한 데이터를 Flatten하여 타입을 맞추고, 분석하기 좋은 원재료 형태로 가공하는 레이어전체 흐름Bronze S3 (Parquet) ↓Athena 외부 테이블 (raw_bronze_tbl) ↓ SELECT + FlattenSilver 테이블 (CTAS or INSERT) ↓Silver S3 적재Airflow DAG가 Bronze 완료 시점 이후 스케줄로 Athena SQL을 실행하여, Bronze 데이터를 정제 후 Silver 테이블/S3에 기록하는 구조.1. Bronze 외부 테이블 구성Silver 작업 전 선행 조건 — Bronze S3 데이터를 Athena에서 조회할 수 있는 테이블이 필요함.기존 bronze_tbl 문제점Fireh..

Medallion Architecture - 2 — Bronze 코드 구현

멀티프로세싱으로 점포(store-01 ~ store-N)별 독립 프로세스를 생성하여, 각 점포의 매출 로그를 Kinesis Data Streams로 실시간 전송하는 데이터 생성기아래 코드를 통해 키네시스로 데이터를 보낸 후 AWS 콘솔에서 Firehose와 연결하여 S3에 적재하는 과정을 거침.전체 구조main (부모 프로세스) ├─ Process-0: run_producer(store-01) → gen_data → send_to_kinesis → 무한루프 ├─ Process-1: run_producer(store-02) → gen_data → send_to_kinesis → 무한루프 ├─ Process-2: run_producer(store-03) → gen_data → send_to_kinesi..

Medallion Architecture - 1 — Bronze

데이터 레이크의 표준 데이터 품질 관리 패턴. Raw Data(Bronze) → 정제(Silver) → 비즈니스 분석(Gold) 3단계로 데이터를 단계적으로 가공하여 품질과 활용도를 높이는 구조1. Medallion Architecture 개요데이터 레이크에서 데이터의 품질을 단계적으로 관리하는 표준 패턴.단계 의미 뉘앙스Bronze원천 데이터(원본) 적재무슨 일이 일어났는가?Silver정제/표준화된 데이터누가, 언제, 무엇을 구매했는가?Gold비즈니스/분석용 집계 데이터이번 시간 매출은 얼마인가?2. 각 단계별 데이터 변화 형태2.1 Bronze 단계 (Raw Data)원본(오리지널) 데이터의 형태를 보존하는 단계.파이프라인: 데이터 생성기(발생) → Kinesis → Firehose → S3데이터 형..

Athena 정리 — 개념, SQL 실습, Airflow 연동

S3 데이터 레이크에 쌓인 데이터를 표준 SQL로 분석하는 서버리스 쿼리 서비스. Raw 데이터 전처리부터 이상치 탐지, 결측치 처리, CTAS 기반 ETL까지 수행 가능1. Amazon Athena 개요S3에 저장된 데이터를 표준 SQL로 직접 분석할 수 있는 서버리스 대화형 쿼리 서비스.데이터 파이프라인에서 중간~후반부에 위치하며, Raw 데이터를 가공/전처리하는 역할을 담당함.핵심 특징Presto/Trino 기반 — Meta에서 대규모 데이터 분석을 위해 만든 Presto를 기반으로 구축. 상표권 문제로 Trino가 분리되었으나 태생은 동일. Athena는 표준 SQL + Trino 문법 기반JSON 처리 강력 — json_extract(), json_extract_scalar() 등 JSON 관련..

Athena - 2 (Athena 기반 일일 리포트 생성 DAG)

S3 CSV를 Athena 외부 테이블로 매핑하고, result(Pass/Fail) 기준 집계 리포트를 CTAS로 Parquet 테이블로 생성하는 DAG전체 아키텍처Task1 (CREATE EXTERNAL TABLE) → Task1_2 (S3 Clean) → Task2 (DROP TABLE) → Task3 (CTAS 집계)S3에 있는 시험 결과 CSV를 Athena 테이블로 매핑하고, result(Pass/Fail) 기준으로 집계한 리포트 테이블을 Parquet 포맷으로 생성하는 구조.1. 모듈 가져오기from datetime import datetime, timedeltafrom airflow import DAGfrom airflow.providers.amazon...

2026.04.20 AI 뉴스

오늘의 AI 뉴스 (2026년 4월 20일)1. 앤트로픽 '클로드 미토스' 파장… 백악관·글로벌 금융권 긴급 대응앤트로픽이 공개한 차세대 AI 모델 '클로드 미토스(Claude Mythos)'가 소프트웨어 취약점을 스스로 탐지하고 실제 작동 가능한 공격 코드까지 생성할 수 있는 수준에 근접했다는 평가가 나오면서, 미국 정부와 글로벌 금융권이 긴급 대응에 나섰습니다.미토스는 운영체제(OS)와 웹 브라우저 등 핵심 시스템의 구조적 결함을 탐지해 공격 가능한 형태로 구체화하는 능력을 갖춘 것으로 알려졌습니다. 보안성이 높기로 유명한 오픈소스 OS '오픈BSD'에서 수십 년간 발견되지 않았던 설계 결함을 찾아낸 것으로 전해졌으며, 박사급 난이도 문제 벤치마크에서 절반 이상의 정답률을 기록했습니다.다리오 아모데이..

AI 뉴스 2026.04.20