ELK Stack 개요
ELK는 Elasticsearch, Logstash, Kibana의 약자로, 실시간 대규모 로그 데이터를 수집·검색·시각화하는 오픈소스 기술 세트임.
- Elasticsearch (E) : 빠른 분산 검색 엔진. 분당 수억 건의 로그에서 특정 조건(예: "어제 15시에 센서 온도 250도 초과")을 1초 미만으로 검색 가능
- Logstash (L) : 수집된 로그에서 노이즈 제거(필터링), 전처리(정규식 등)를 수행하여 JSON/텍스트 형태로 가공 후 Elasticsearch로 전달
- Kibana (K) : 대시보드 시각화 → 관제/모니터링 → 실시간 보안·통제·운용·관리 등에 활용
ELK/EFK에서 L은 Logstash, F는 Fluent Bit을 의미함.
AWS OpenSearch란
Elasticsearch의 라이센스가 풀린 버전을 AWS에서 서비스화한 것이 Amazon OpenSearch Service임.
- ELK Stack을 AWS 환경에서 간편하게 구성 가능
- 최대 페타바이트 규모의 텍스트 및 비정형 데이터를 검색·시각화·분석할 수 있음
- 검색 속도가 매우 빠르며(거의 1초 이내), 데이터 양이 증가해도 성능 유지
도메인 생성 경로 : Amazon OpenSearch Service > Domains > Create domain
ELK/EFK 기반 데이터 파이프라인 흐름
전통적인 ELK 파이프라인 흐름은 다음과 같음.
로그 수집 → Logstash → Elasticsearch → Kibana
AWS 환경에서의 확장 흐름:
Beats / AWS IoT / Fluent Bit
→ Logstash / Fluent Bit + Firehose
→ Elasticsearch / OpenSearch
→ Kibana / OpenSearch Dashboards
데이터 파이프라인 설계 단계
- 도메인 선정 : 스마트팩토리, 웹, 앱, 게임 등 대상 결정
- 데이터 형태 예상 : 데이터의 형태, 실시간성, 데이터의 양을 고려하여 최종 데이터 형태 선정
- Raw 데이터 전송 : 아래 흐름으로 구성
로그 생성기
→ Fluent Bit (JSON) / Logstash (Text)
→ Kafka (온프레미스) / MSK (AWS) / Kinesis
→ Firehose / S3
→ OpenSearch 또는 Airflow + OpenSearch
→ 검색을 통한 Gold Data 획득 / 대시보드 시각화
핵심 정리 표
| 구분 | 설명 |
| Elasticsearch | 분산 검색 엔진, 수억 건 로그에서 초 단위 검색 |
| Logstash | 로그 필터링·전처리·가공 (텍스트 기반) |
| Fluent Bit | 경량 로그 수집기 (JSON 기반, AWS 환경에 적합) |
| Kibana | 시각화 대시보드, 실시간 모니터링 |
| AWS OpenSearch | Elasticsearch의 AWS 매니지드 서비스 |
| 처리 규모 | 페타바이트급 텍스트·비정형 데이터 |
OpenSearch는 Elasticsearch의 AWS 매니지드 버전으로, ELK Stack을 간편하게 구성하고 페타바이트 규모의 로그를 1초 이내로 검색할 수 있는 서비스이다.
'SK플래닛 ai활용 데이터엔지니어 과정 2기 > Airflow' 카테고리의 다른 글
| Kafka 개념 정리 + CLI 테스트 (1) | 2026.04.23 |
|---|---|
| Medallion Architecture - 5 — Gold Layer 구현 (0) | 2026.04.22 |
| Medallion Architecture - 4 — Silver DAG 코드 구현 (0) | 2026.04.22 |
| Medallion Architecture - 3 — Silver Layer (0) | 2026.04.22 |
| Medallion Architecture - 2 — Bronze 코드 구현 (0) | 2026.04.21 |