SK플래닛 ai활용 데이터엔지니어 과정 2기/Airflow

OpenSearch 개념 정리

dev-lee 2026. 4. 23. 21:13

ELK Stack 개요

ELK는 Elasticsearch, Logstash, Kibana의 약자로, 실시간 대규모 로그 데이터를 수집·검색·시각화하는 오픈소스 기술 세트임.

  • Elasticsearch (E) : 빠른 분산 검색 엔진. 분당 수억 건의 로그에서 특정 조건(예: "어제 15시에 센서 온도 250도 초과")을 1초 미만으로 검색 가능
  • Logstash (L) : 수집된 로그에서 노이즈 제거(필터링), 전처리(정규식 등)를 수행하여 JSON/텍스트 형태로 가공 후 Elasticsearch로 전달
  • Kibana (K) : 대시보드 시각화 → 관제/모니터링 → 실시간 보안·통제·운용·관리 등에 활용

ELK/EFK에서 L은 Logstash, F는 Fluent Bit을 의미함.


AWS OpenSearch란

Elasticsearch의 라이센스가 풀린 버전을 AWS에서 서비스화한 것이 Amazon OpenSearch Service임.

  • ELK Stack을 AWS 환경에서 간편하게 구성 가능
  • 최대 페타바이트 규모의 텍스트 및 비정형 데이터를 검색·시각화·분석할 수 있음
  • 검색 속도가 매우 빠르며(거의 1초 이내), 데이터 양이 증가해도 성능 유지

도메인 생성 경로 : Amazon OpenSearch Service > Domains > Create domain


ELK/EFK 기반 데이터 파이프라인 흐름

전통적인 ELK 파이프라인 흐름은 다음과 같음.

로그 수집 → Logstash → Elasticsearch → Kibana

AWS 환경에서의 확장 흐름:

Beats / AWS IoT / Fluent Bit
    → Logstash / Fluent Bit + Firehose
    → Elasticsearch / OpenSearch
    → Kibana / OpenSearch Dashboards

데이터 파이프라인 설계 단계

  1. 도메인 선정 : 스마트팩토리, 웹, 앱, 게임 등 대상 결정
  2. 데이터 형태 예상 : 데이터의 형태, 실시간성, 데이터의 양을 고려하여 최종 데이터 형태 선정
  3. Raw 데이터 전송 : 아래 흐름으로 구성
로그 생성기
  → Fluent Bit (JSON) / Logstash (Text)
  → Kafka (온프레미스) / MSK (AWS) / Kinesis
  → Firehose / S3
  → OpenSearch 또는 Airflow + OpenSearch
  → 검색을 통한 Gold Data 획득 / 대시보드 시각화

핵심 정리 표

구분  설명
Elasticsearch 분산 검색 엔진, 수억 건 로그에서 초 단위 검색
Logstash 로그 필터링·전처리·가공 (텍스트 기반)
Fluent Bit 경량 로그 수집기 (JSON 기반, AWS 환경에 적합)
Kibana 시각화 대시보드, 실시간 모니터링
AWS OpenSearch Elasticsearch의 AWS 매니지드 서비스
처리 규모 페타바이트급 텍스트·비정형 데이터

OpenSearch는 Elasticsearch의 AWS 매니지드 버전으로, ELK Stack을 간편하게 구성하고 페타바이트 규모의 로그를 1초 이내로 검색할 수 있는 서비스이다.