jongkwan.dev
개발 · Essay №044

Chain of Thought (CoT): 단계별 추론의 시작

Let's think step by step - 일부 대형 모델의 복잡한 추론 성능을 크게 높인 프롬프팅 기법

이종관2026년 2월 1일5 min read
Contents

"Let's think step by step"

개념

Chain of Thought(CoT)는 LLM에게 중간 추론 단계를 보여주어 복잡한 문제 해결 능력을 이끌어내는 프롬프팅 기법이다.

핵심 아이디어

  • 일반 프롬프팅: 문제를 주면 바로 답을 출력한다.
  • CoT 프롬프팅: 문제를 주면 단계1, 단계2, 단계3을 거쳐 답에 도달한다.

예시 비교

일반 프롬프팅

Q: 2+3은? A: 5

Chain-of-Thought 프롬프팅

Q: 2+3은? 먼저 2개를 생각하고 3개를 더하면 총 5개다. A: 5

Emergent Ability

CoT의 가장 흥미로운 특성은 모든 모델에서 작동하지 않는다는 것이다.

모델 크기CoT 적용 효과
작은 모델성능 변화가 거의 없음
대형 모델단계적 추론을 통해 성능이 크게 향상

CoT 효과는 주로 일정 규모 이상의 대형 모델에서 관찰된다.

작은 모델의 CoT는 "유창하지만 논리적이지 않은" 결과를 만들어낸다.

실험 결과

산술 추론 (GSM8K)

모델표준 프롬프팅CoT 프롬프팅
PaLM 540B~35%~70% (약 2배)

상식 추론 (StrategyQA)

  • 기존 최고: 69.4%
  • PaLM 540B + CoT: 75.6%

스포츠 이해

  • 95.4% (전문 스포츠 팬 수준 초과)

제거 연구 (Ablation Study)

"왜 CoT가 작동하는가?"를 검증하기 위한 실험:

변형결과의미
수식만 보여주기효과 없음자연언어 설명 필요
의미 없는 토큰 추가효과 없음단순 계산 시간 증가 아님
답변 후 사고 과정효과 없음순서가 중요

결론: 실제 추론 과정의 명시화가 핵심

강건성 검증

프롬프트 민감도 테스트

  • 3명의 저자가 독립적으로 작성한 CoT → 모두 효과적
  • GSM8K 훈련 데이터에서 무작위 샘플 사용 → 작동
  • 예시 순서 변경 → 상대적으로 영향 적음

결론: 특정 스타일이 아닌 "추론 과정 명시" 자체가 중요

Out-of-Distribution 테스트

일반화 능력

  • 마지막 문자 연결: 2단어로 학습 → 3-4단어 문제 해결
  • 동전 뒤집기: 2번 뒤집기 학습 → 더 많은 뒤집기 해결

의미: 단순 패턴 매칭이 아닌 추상적 논리 구조 학습

한계

  1. 신경망이 실제로 "생각"하는지는 미해결
  2. 미세조정 확장 시 데이터 비용
  3. 올바른 추론 보장 안 됨 (할루시네이션 가능)
  4. 작은 모델이나 단순 태스크에서는 효과가 제한적

패러다임 전환

이전이후
모델을 어떻게 더 똑똑하게 학습시킬 것인가?이미 똑똑한 모델을 어떻게 더 잘 사용할 것인가?

핵심 메시지: 거대 언어 모델은 이미 강력한 추론 능력을 내재하고 있다. 모델에게 '생각하는 과정'을 예시로 보여주기만 해도, 그 능력을 발휘할 수 있다.

발전

  1. CoT → ReAct: 도구 사용을 추가하여 외부 환경과 상호작용한다.
  2. CoT → ToT: 다중 경로를 탐색하여 최적의 추론 경로를 찾는다.
  3. CoT → Reflexion: 자기 성찰을 통해 실패에서 학습한다.

관련 개념

  • Tree of Thought (ToT): 다중 경로 확장
  • ReAct: 행동 결합
  • Reflexion: 자기 성찰 추가