Chain of Thought (CoT): 단계별 추론의 시작
Let's think step by step - LLM에게 생각하는 과정을 보여주는 것만으로 성능이 2배 향상됩니다
2026년 2월 1일·4 min read·
ai
ai-agent
llm
chain-of-thought
prompting
reasoning
"Let's think step by step"
개념
Chain of Thought(CoT)는 LLM에게 중간 추론 단계를 보여주어 복잡한 문제 해결 능력을 이끌어내는 프롬프팅 기법입니다.
핵심 아이디어
일반 프롬프팅:
Q: 문제
A: 답
CoT 프롬프팅:
Q: 문제
A: 단계1 → 단계2 → 단계3 → 답
예시 비교
일반 프롬프팅
Q: 2+3은?
A: 5
Chain-of-Thought 프롬프팅
Q: 2+3은?
먼저 2개를 생각하고 3개를 더하면 총 5개다.
A: 5
Emergent Ability
CoT의 가장 흥미로운 특성은 모든 모델에서 작동하지 않는다는 것입니다.
성능(%)
| ★ 큰 모델 (100B+)
| /
| /
| 작은 모델: ━━━━━━━━━━━ (변화 없음)
|
└─────────────────────────────
모델 크기
약 100억 파라미터 이상의 모델에서만 CoT 효과 발현
작은 모델의 CoT는 "유창하지만 논리적이지 않은" 결과를 만들어냅니다.
실험 결과
산술 추론 (GSM8K)
| 모델 | 표준 프롬프팅 | CoT 프롬프팅 |
|---|---|---|
| PaLM 540B | ~35% | ~70% (약 2배) |
상식 추론 (StrategyQA)
- 기존 최고: 69.4%
- PaLM 540B + CoT: 75.6%
스포츠 이해
- 95.4% (전문 스포츠 팬 수준 초과)
제거 연구 (Ablation Study)
"왜 CoT가 작동하는가?"를 검증하기 위한 실험:
| 변형 | 결과 | 의미 |
|---|---|---|
| 수식만 보여주기 | 효과 없음 | 자연언어 설명 필요 |
| 의미 없는 토큰 추가 | 효과 없음 | 단순 계산 시간 증가 아님 |
| 답변 후 사고 과정 | 효과 없음 | 순서가 중요 |
결론: 실제 추론 과정의 명시화가 핵심
강건성 검증
프롬프트 민감도 테스트
- 3명의 저자가 독립적으로 작성한 CoT → 모두 효과적
- GSM8K 훈련 데이터에서 무작위 샘플 사용 → 작동
- 예시 순서 변경 → 상대적으로 영향 적음
결론: 특정 스타일이 아닌 "추론 과정 명시" 자체가 중요
Out-of-Distribution 테스트
일반화 능력
- 마지막 문자 연결: 2단어로 학습 → 3-4단어 문제 해결
- 동전 뒤집기: 2번 뒤집기 학습 → 더 많은 뒤집기 해결
의미: 단순 패턴 매칭이 아닌 추상적 논리 구조 학습
한계
- 신경망이 실제로 "생각"하는지는 미해결
- 미세조정 확장 시 데이터 비용
- 올바른 추론 보장 안 됨 (할루시네이션 가능)
- 매우 큰 모델(100B+)에서만 작동
패러다임 전환
| 이전 | 이후 |
|---|---|
| 모델을 어떻게 더 똑똑하게 학습시킬 것인가? | 이미 똑똑한 모델을 어떻게 더 잘 사용할 것인가? |
핵심 메시지: 거대 언어 모델은 이미 강력한 추론 능력을 내재하고 있다. 모델에게 '생각하는 과정'을 예시로 보여주기만 해도, 그 능력을 발휘할 수 있다.
발전
CoT → ReAct (도구 추가)
CoT → ToT (다중 경로)
CoT → Reflexion (자기 성찰)
관련 개념
- Tree of Thought (ToT): 다중 경로 확장
- ReAct: 행동 결합
- Reflexion: 자기 성찰 추가