Chain of Thought (CoT): 단계별 추론의 시작

"Let's think step by step"

개념

Chain of Thought(CoT)는 LLM에게 중간 추론 단계를 보여주어 복잡한 문제 해결 능력을 이끌어내는 프롬프팅 기법입니다.

핵심 아이디어

일반 프롬프팅:
Q: 문제
A: 답

CoT 프롬프팅:
Q: 문제
A: 단계1 → 단계2 → 단계3 → 답

예시 비교

일반 프롬프팅

Q: 2+3은?
A: 5

Chain-of-Thought 프롬프팅

Q: 2+3은?
먼저 2개를 생각하고 3개를 더하면 총 5개다.
A: 5

Emergent Ability

CoT의 가장 흥미로운 특성은 모든 모델에서 작동하지 않는다는 것입니다.

성능(%)
|                                    ★ 큰 모델 (100B+)
|                                   /
|                                  /
| 작은 모델: ━━━━━━━━━━━ (변화 없음)
|
└─────────────────────────────
  모델 크기

약 100억 파라미터 이상의 모델에서만 CoT 효과 발현

작은 모델의 CoT는 "유창하지만 논리적이지 않은" 결과를 만들어냅니다.

실험 결과

산술 추론 (GSM8K)

모델	표준 프롬프팅	CoT 프롬프팅
PaLM 540B	~35%	~70% (약 2배)

상식 추론 (StrategyQA)

기존 최고: 69.4%
PaLM 540B + CoT: 75.6%

스포츠 이해

95.4% (전문 스포츠 팬 수준 초과)

제거 연구 (Ablation Study)

"왜 CoT가 작동하는가?"를 검증하기 위한 실험:

변형	결과	의미
수식만 보여주기	효과 없음	자연언어 설명 필요
의미 없는 토큰 추가	효과 없음	단순 계산 시간 증가 아님
답변 후 사고 과정	효과 없음	순서가 중요

결론: 실제 추론 과정의 명시화가 핵심

강건성 검증

프롬프트 민감도 테스트

3명의 저자가 독립적으로 작성한 CoT → 모두 효과적
GSM8K 훈련 데이터에서 무작위 샘플 사용 → 작동
예시 순서 변경 → 상대적으로 영향 적음

결론: 특정 스타일이 아닌 "추론 과정 명시" 자체가 중요

Out-of-Distribution 테스트

일반화 능력

마지막 문자 연결: 2단어로 학습 → 3-4단어 문제 해결
동전 뒤집기: 2번 뒤집기 학습 → 더 많은 뒤집기 해결

의미: 단순 패턴 매칭이 아닌 추상적 논리 구조 학습

한계

신경망이 실제로 "생각"하는지는 미해결
미세조정 확장 시 데이터 비용
올바른 추론 보장 안 됨 (할루시네이션 가능)
매우 큰 모델(100B+)에서만 작동

패러다임 전환

이전	이후
모델을 어떻게 더 똑똑하게 학습시킬 것인가?	이미 똑똑한 모델을 어떻게 더 잘 사용할 것인가?

핵심 메시지: 거대 언어 모델은 이미 강력한 추론 능력을 내재하고 있다. 모델에게 '생각하는 과정'을 예시로 보여주기만 해도, 그 능력을 발휘할 수 있다.

발전

CoT → ReAct (도구 추가)
CoT → ToT (다중 경로)
CoT → Reflexion (자기 성찰)

개념