SK플래닛 ai활용 데이터엔지니어 과정 2기/ML & DL

DL 4 - NLP 모델

dev-lee 2026. 5. 26. 16:57

1. NLP 개요

NLP(Natural Language Processing, 자연어 처리)는 컴퓨터가 인간의 언어를 이해·해석·조작·생성하도록 만드는 인공지능 분야임. 데이터 자체가 자연어이며, 텍스트의 이해·의도·감정·맥락을 파악하고 적절히 응답하는 것이 목표.

1.1 핵심 과제

  • 이해(Understanding) — 텍스트의 의미, 의도, 감정, 맥락 파악
  • 반응(Reaction) — 파악한 정보를 기반으로 적절한 응답 생성
  • 데이터 특성 — 토큰(단어/어절) 단위의 시퀀스 데이터

NLP의 본질은 "순서가 있는 데이터"를 다룬다는 점임. 단어 하나만 보면 의미가 없고, 앞뒤 단어와의 관계(맥락) 속에서만 의미가 성립함. 이 특성이 일반 DNN과 다른 별도 신경망 구조를 요구함.


2. 순환신경망의 기본 개념

RNN(Recurrent Neural Network)은 시퀀스 정보를 다루기 위해 설계된 신경망 계열의 총칭. 자연어뿐 아니라 시계열 데이터 전반에 적용됨.

2.1 데이터 관점

  • 기본 데이터 + 시퀀스 정보 — 시퀀스는 순서 또는 시간을 의미
  • 시계열 데이터 — 시간축 중심으로 배치 (금융: 주가·환율, 제조/IoT: 센서)
  • 순서 데이터 — 자연어, 번역, 문장 생성, 키워드 추출

2.2 동작 원리

  • 이전 토큰을 고려한 다음 토큰 예측 — 특정 토큰이 입력되면 직전 토큰들을 함께 참고
  • 전체 맥락 고려 — 시퀀스가 길어질수록 장기·단기 기억이 누적
  • 데이터 영향 방향 — 앞쪽 내용이 뒤쪽에 영향을 미침 → 이를 위해 "기억"이 필요

RNN의 핵심 발상은 "현재 시점의 출력은 현재 입력 + 과거의 누적 기억으로 결정된다"는 것임. 일반 DNN은 입력 하나만 보고 판단하지만, RNN은 시간을 가로지르는 메모리 흐름을 추가함.


3. RNN (Recurrent Neural Network)

가장 초기의 순환신경망 구조. 이전 시퀀스의 은닉층이 다음 시퀀스의 은닉층에 연결되어 데이터를 공급하는 방식임.

3.1 구조적 특징

  • 은닉층 간 연결 — 이전 시퀀스의 은닉층 상태가 다음 은닉층으로 전달됨
  • 시간축 펼침 — 동일 신경망을 시간 순으로 배치하면 우측 방향으로 늘어선 형태로 표현 가능
  • 메모리 역할 — 과거의 입력이 현재 은닉층에 지속적 영향 → 일종의 메모리

3.2 RNN의 치명적 단점

  • 장기 기억 소실 문제 — 문장이 길어지면 초기에 영향을 준 정보가 점점 희석됨
  • 기울기 폭주(Gradient Exploding) — 오차역전파 중 기울기가 비정상적으로 커짐
  • 기울기 소실(Gradient Vanishing) — 기울기가 0에 가까워져 학습 불가

실무에서 순수 RNN은 거의 사용되지 않음. 문제가 너무 많아서 후속 모델인 LSTM과 GRU로 대체되었음. RNN은 "왜 이런 개선이 필요했는가"를 이해하기 위한 출발점으로만 의미가 있음.


4. LSTM (Long Short-Term Memory)

RNN의 장기 기억 소실 문제를 해결하기 위해 제안된 구조. **장기기억선(메모리 셀)** 을 별도로 두어 중요 정보를 끝까지 보존함.

4.1 핵심 구성 요소

  • Ct (Cell state, 장기기억선) — 중요한 기억을 보관하는 메모리 셀, LSTM의 핵심
  • Ft (Forget Gate) — 잊혀질 데이터, 중요하지 않은 정보 삭제 결정
  • It (Input Gate) — 신규 입력 중 중요한 정보를 선별
  • Ot (Output Gate) — 입력·이전 은닉상태·장기기억을 종합 연산하여 현재 시점 은닉 상태값 생성

4.2 단점

  • 학습 파라미터 증가 — 게이트가 늘어나면서 학습해야 할 파라미터가 RNN 대비 약 4배 증가
  • 비용 상승 — 계산량·메모리·학습 시간 모두 RNN보다 큼

LSTM은 "중요한 건 끝까지 기억하고, 불필요한 건 잊는다"를 게이트로 구현한 구조임. RNN이 단일 메모리 흐름이라면, LSTM은 장기 기억선(Ct)과 단기 기억선(Ht)의 이중 트랙으로 동작함. 이 구조 덕분에 긴 문장에서도 초반 정보가 살아남음.


5. GRU (Gated Recurrent Unit)

LSTM의 무거운 구조를 경량화하면서 성능을 비슷하게 유지하는 것이 목표. LSTM 학습 파라미터를 줄여 더 우수한 성능을 추구.

5.1 GRU의 원리

  • 장기기억선 제거 — LSTM의 Cell state(Ct)를 별도로 두지 않음
  • 순환선에 통합 — 은닉층에 연결된 순환선이 장기기억선 대용 역할 수행
  • 게이트 단순화 — Forget + Input Gate를 하나의 Update Gate로 통합

5.2 LSTM vs GRU

  • LSTM — 게이트 3개(Forget, Input, Output), 파라미터 많음, 표현력 우수
  • GRU — 게이트 2개(Reset, Update), 파라미터 적음, 학습 빠름

실무에서는 "데이터가 충분히 크면 LSTM, 작거나 빠르게 실험하고 싶으면 GRU"를 기본 가이드로 삼음. 둘 중 어떤 것이 더 좋은지는 데이터셋·태스크에 따라 다르며 일반론은 없음.


6. 순환신경망 입출력 구조와 활용

RNN 계열은 입출력 시퀀스의 길이 관계에 따라 적용 분야가 달라짐.

6.1 many-to-many

  • 비대칭형 — 기계번역 (한국어 5단어 → 영어 7단어)
  • 대칭형 — 챗봇, 질문과 답변(QA)

6.2 many-to-one

  • 감정 분석 — 문장 전체를 보고 긍정/부정 1개 출력
  • 토픽·키워드·헤드라인·요약 — 여러 단어를 단일 결과로 압축
  • 이미지 생성 — 자연어 설명을 받아 이미지 1장 출력

6.3 one-to-many

  • 이미지 캡셔닝 — 이미지 1장 → 설명 문장 여러 단어
  • 글쓰기 — 시작 단어 1개 → 문장 전체 생성

7. 어텐션 메커니즘

2017년 구글이 발표한 "Attention is All You Need" 논문이 NLP의 패러다임을 바꿈. RNN의 장기 기억 소실 문제를 근본적으로 해결한 메커니즘.

7.1 핵심 아이디어

  • 토큰 단위 가중치 부여 — 모든 토큰에 중요도(가중치)를 매겨 차등 전달
  • 선별적 집중(Attention) — 예측 단어에 연관된 단어들에 더 집중하여 검토
  • 다음 토큰 선정 — 가중치를 반영해 다음 토큰을 선정

7.2 어텐션의 전제 조건

  • 인코더-디코더 구조 — 어텐션은 반드시 이 구조에서 동작
  • 대량의 데이터 학습 필수 — 가중치를 학습으로 찾기 때문에 데이터가 풍부해야 함

RNN/LSTM이 "순서대로 읽으며 누적된 기억으로 판단"한다면, 어텐션은 "전체를 한 번에 보고 어디에 집중할지 결정"하는 방식임. 사람이 긴 문장을 읽을 때 모든 단어를 똑같이 보지 않고 중요한 부분에 집중하는 방식과 유사함.


8. 트랜스포머

어텐션 메커니즘을 전면에 내세운 새로운 신경망 구조. 순환 구조를 완전히 버리고 어텐션만으로 시퀀스를 처리함. **현대 NLP·LLM의 기반**.

8.1 설계 목표

  • RNN의 비용을 모든 측면에서 개선 — 학습 속도, 병렬화, 메모리 효율
  • 전이학습을 효율적으로 전개 — 사전 학습된 모델을 다양한 태스크에 재활용
  • 다양한 코퍼스 적용 — 전 세계 언어를 반영한 다국어 모델 지원
  • 어텐션 메커니즘 적용 — 토큰 간 관계를 직접 모델링
  • 인코더-디코더 구조 적용 — 이전까지는 U-Net, GAN, Seq-to-Seq에서 활용되던 구조
  • 장기 기억을 토큰 가중치로 부여 — RNN 방식의 메모리를 가중치로 대체

8.2 허깅페이스 생태계

  • 트랜스포머 기반 모델 허브 — 신규 모델 및 전이학습 모델 공개·공유 플랫폼
  • 사용 패턴 2단계
    • 토크나이저 — 자연어를 토큰으로 분해하는 역할
    • 모델 — 토큰을 입력받아 자연어 처리 수행

트랜스포머의 가장 큰 혁신은 "순환을 없앴다"는 점임. RNN은 시퀀스를 순서대로 처리해야 해서 병렬화가 불가능했지만, 트랜스포머는 모든 토큰을 동시에 처리 가능 → GPU 활용 극대화 → 대규모 학습이 가능해짐. LLM 시대를 연 결정적 기술 변화.


9. 트랜스포머 계열의 분기

트랜스포머는 인코더와 디코더로 구성되는데, 어떤 부분을 활용하느냐에 따라 모델 계보가 갈라짐.

9.1 인코더-디코더 기반

  • 대표 모델 — BART
  • 개발 주체 — Meta
  • 활용 — 기계번역, 요약 등 시퀀스 변환 태스크

9.2 인코더 기반

  • 시작 — BERT
  • 발전 — ELECTRA
  • 활용 — 이해 중심 태스크(분류, 개체명 인식, 문장 유사도)

9.3 디코더 기반

  • 대표 모델 — GPT (1.x, 2.x까지 공개, 3.0 이후 비공개)
  • 개발 주체 — OpenAI
  • 특화 — 문장 생성 → 기계번역으로 확장
  • 시장 지배 — GPT가 시장 지배자가 되면서 LLM이 본격 발전 시작
  • 특이점 — 2022년 말 ChatGPT 등장으로 폭발적 확산

같은 트랜스포머에서 시작했지만 분기가 명확함. 이해(BERT) vs 생성(GPT) vs 변환(BART). 현재 LLM 흐름은 디코더 기반(GPT 계열)이 주도하고 있으며, 이는 "생성"이라는 태스크가 가장 범용성이 크기 때문임.


10. LLM과 생성형 모델

10.1 LLM 결과물

  • ChatGPT 제품 — 채팅 인터페이스로 다양한 응답 제공 (이미지·문서·답변·코딩)
  • 이미지 생성 — DALL-E, Stable Diffusion 등 생성형 모델
  • AGI 방향 — 범용 인공지능을 향해 계속 발전 중

10.2 모델 종류 구분

  • 판별 모델(Discriminative) — 입력 X를 받아 정답 Y의 확률을 예측
  • 생성형 모델(Generative) — 간단한 재료(자연어)를 입력해서 데이터 X를 생성. X는 이미지·영상·텍스트·사운드 등 다양

10.3 생성형 모델 계보

  • 지도적 생성 모델 — PCA, LDA 등 전통 통계 기법
  • 비지도적 통계 모델 — GMM, KDE 등 머신러닝 기법
  • 딥러닝 생성 모델
    • Explicit Density — AE(Auto-Encoder), VAE(변이형 Auto-Encoder, U-Net 의학 영상 진단)
    • Implicit Density — GAN(적대적 인공신경망, DCGAN/StyleGAN)
    • Flow Model
    • Diffusion Model — 현재 생성형 모델의 주류 (DALL-E, Stable Diffusion, NANOBANANA, D-ID 등)

10.4 GAN의 적대적 학습 구조

  • 생성자(Fake Maker) — 가짜 데이터를 만들어내는 모델
  • 판별자(Fake Finder) — 가짜를 찾아내는 모델
  • 상호 경쟁 — 두 모델이 서로 경쟁하면서 발전하는 적대 기법

적대적 학습(Adversarial Learning)은 "두 모델이 싸우면서 같이 강해진다"는 발상의 전환임. 위조지폐범과 경찰의 대결에 비유됨 — 위조지폐범이 정교해질수록 경찰도 정교해지고, 그 결과 양쪽 모두 발전함. 확산 모델이 주류가 된 현재도 GAN의 발상은 다양한 형태로 살아있음.


11. 요약

  • NLP의 본질 — 순서가 있는 데이터(자연어)를 다루는 분야로, 일반 DNN으로는 부족하여 별도 신경망 구조 필요
  • RNN → LSTM → GRU — 장기 기억 소실 문제를 점진적으로 해결하는 진화 경로
  • 2017 어텐션 등장 — RNN 패러다임을 무너뜨린 결정적 사건, "Attention is All You Need"
  • 트랜스포머 — 순환 구조 폐기, 어텐션만으로 시퀀스 처리, 병렬화로 대규모 학습 가능
  • 계열 분기 — BERT(인코더, 이해) / GPT(디코더, 생성) / BART(인코더-디코더, 변환)
  • LLM 시대 — GPT 계열이 시장 지배, ChatGPT로 특이점 도달, AGI 방향으로 진행 중
  • 생성형 모델 — Diffusion이 주류, GAN의 적대적 학습 발상이 여전히 영향력 유지

자연어 처리의 역사는 "기억을 어떻게 다룰 것인가"의 역사임. RNN은 순환으로, LSTM은 게이트로, 트랜스포머는 어텐션으로 각각 답을 내놓았고, 그 결과 LLM이라는 결실에 도달함. 이미지 인식이 CNN으로 정착했듯이 자연어 처리는 트랜스포머로 정착했으며, 두 흐름이 만난 지점이 멀티모달 LLM임. 회귀 수식 하나에서 출발한 인공신경망이 가중치 → 커널 → 어텐션 가중치로 형태를 바꿔가며 결국 같은 원리(중요한 것에 가중치를 부여하고 학습으로 최적화)를 다른 도메인에 적용해온 흐름이라는 점을 이해하면, ML/DL/NLP/LLM의 연결이 자연스러워짐.

'SK플래닛 ai활용 데이터엔지니어 과정 2기 > ML & DL' 카테고리의 다른 글

DL 6 - 트랜스포머 기반 학습 모델 가져오기  (0) 2026.05.27
DL 5 - NLP 실습  (0) 2026.05.27
DL 3 - CNN  (0) 2026.05.26
DL 2 - 전이학습  (0) 2026.05.26
DL 1 - 딥러닝 개요  (0) 2026.05.26