이종관
Back to Posts

Chain of Thought (CoT): 단계별 추론의 시작

Let's think step by step - LLM에게 생각하는 과정을 보여주는 것만으로 성능이 2배 향상됩니다

2026년 2월 1일·4 min read·
ai
ai-agent
llm
chain-of-thought
prompting
reasoning

"Let's think step by step"

개념

Chain of Thought(CoT)는 LLM에게 중간 추론 단계를 보여주어 복잡한 문제 해결 능력을 이끌어내는 프롬프팅 기법입니다.

핵심 아이디어

일반 프롬프팅:
Q: 문제
A: 답

CoT 프롬프팅:
Q: 문제
A: 단계1 → 단계2 → 단계3 → 답

예시 비교

일반 프롬프팅

Q: 2+3은?
A: 5

Chain-of-Thought 프롬프팅

Q: 2+3은?
먼저 2개를 생각하고 3개를 더하면 총 5개다.
A: 5

Emergent Ability

CoT의 가장 흥미로운 특성은 모든 모델에서 작동하지 않는다는 것입니다.

성능(%)
|                                    ★ 큰 모델 (100B+)
|                                   /
|                                  /
| 작은 모델: ━━━━━━━━━━━ (변화 없음)
|
└─────────────────────────────
  모델 크기

약 100억 파라미터 이상의 모델에서만 CoT 효과 발현

작은 모델의 CoT는 "유창하지만 논리적이지 않은" 결과를 만들어냅니다.

실험 결과

산술 추론 (GSM8K)

모델표준 프롬프팅CoT 프롬프팅
PaLM 540B~35%~70% (약 2배)

상식 추론 (StrategyQA)

  • 기존 최고: 69.4%
  • PaLM 540B + CoT: 75.6%

스포츠 이해

  • 95.4% (전문 스포츠 팬 수준 초과)

제거 연구 (Ablation Study)

"왜 CoT가 작동하는가?"를 검증하기 위한 실험:

변형결과의미
수식만 보여주기효과 없음자연언어 설명 필요
의미 없는 토큰 추가효과 없음단순 계산 시간 증가 아님
답변 후 사고 과정효과 없음순서가 중요

결론: 실제 추론 과정의 명시화가 핵심

강건성 검증

프롬프트 민감도 테스트

  • 3명의 저자가 독립적으로 작성한 CoT → 모두 효과적
  • GSM8K 훈련 데이터에서 무작위 샘플 사용 → 작동
  • 예시 순서 변경 → 상대적으로 영향 적음

결론: 특정 스타일이 아닌 "추론 과정 명시" 자체가 중요

Out-of-Distribution 테스트

일반화 능력

  • 마지막 문자 연결: 2단어로 학습 → 3-4단어 문제 해결
  • 동전 뒤집기: 2번 뒤집기 학습 → 더 많은 뒤집기 해결

의미: 단순 패턴 매칭이 아닌 추상적 논리 구조 학습

한계

  1. 신경망이 실제로 "생각"하는지는 미해결
  2. 미세조정 확장 시 데이터 비용
  3. 올바른 추론 보장 안 됨 (할루시네이션 가능)
  4. 매우 큰 모델(100B+)에서만 작동

패러다임 전환

이전이후
모델을 어떻게 더 똑똑하게 학습시킬 것인가?이미 똑똑한 모델을 어떻게 더 잘 사용할 것인가?

핵심 메시지: 거대 언어 모델은 이미 강력한 추론 능력을 내재하고 있다. 모델에게 '생각하는 과정'을 예시로 보여주기만 해도, 그 능력을 발휘할 수 있다.

발전

CoT → ReAct (도구 추가)
CoT → ToT (다중 경로)
CoT → Reflexion (자기 성찰)

관련 개념

  • Tree of Thought (ToT): 다중 경로 확장
  • ReAct: 행동 결합
  • Reflexion: 자기 성찰 추가