2026/05/27 2

DL 6 - 트랜스포머 기반 학습 모델 가져오기

1. 개요트랜스포머 기반 사전 학습 모델을 가져와서 별도 학습 없이 그대로 사용하는 제로샷 러닝(Zero-shot Learning) 방식으로 한국어 문장 생성을 실습함. 업스트림은 GPT2 다국어 모델, 다운스트림은 SKT가 한국어로 파인튜닝한 KoGPT2를 사용한다.1.1 핵심 개념업스트림 모델(Upstream) — GPT2, 다국어 기준 문장 생성 모델다운스트림 모델(Downstream) — skt/kogpt2-base-v2, 한국어에 최적화되게 파인튜닝된 모델제로샷 러닝(Zero-shot Learning) — 추가 학습 없이 사전 학습된 모델을 그대로 사용파인튜닝(Fine-tuning) — 사전 학습 모델에 특정 도메인 데이터를 추가 학습시켜 성능 향상1.2 문장 생성 절차1. 프롬프트 제시 — 단..

DL 5 - NLP 실습

1. 학습 목표NLP 처리 과정 전반을 코드로 직접 다루며 토큰화 워크플로우를 이해하고, 이를 활용해 유사도 기반 챗봇 프로토타입을 구성하는 것이 목표임. LLM API 내부에서 일어나는 토큰화 흐름을 직접 구현해보는 데 의의가 있다.1.1 다루는 범위토큰화 워크플로우 — 분절화 → 사전화 → 벡터화 → 패딩 → 임베딩유사도 기반 검색 — 코사인 유사도로 가장 가까운 질문 찾기챗봇 프로토타입 — Gradio로 시뮬레이션, SBERT로 토크나이저 교체 비교1.2 챗봇 동작 흐름사용자 질문 입력 — 자연어 텍스트질문 토큰화 — 벡터로 변환유사도 검사 — 사전 구축된 챗봇 시트 질문 벡터들과 비교매칭 답변 반환 — 거리가 가장 가까운 질문에 페어로 묶인 답변 응답NLP 워크플로우는 결국 "자연어를 숫자로 바꿔..