jongkwan.dev
개발 · Essay №032

Chain of Thought (CoT) 단계별 추론

Let's think step by step - 일부 대형 모델의 복잡한 추론 성능을 크게 높인 프롬프팅 기법

이종관2026년 1월 28일6 min read
Contents

"Let's think step by step"

개념

Chain of Thought(CoT)는 LLM에게 중간 추론 단계를 보여주어 복잡한 문제 해결 능력을 이끌어내는 프롬프팅 기법이다.

CoT는 두 갈래로 나뉜다. Wei et al. 2022(Google)는 예시에 추론 과정을 포함하는 few-shot CoT를 제안했고, Kojima et al. 2022는 'Let's think step by step' 한 문장만 덧붙이는 zero-shot CoT를 보였다. 이 글의 실험 결과는 모두 few-shot CoT(Wei et al.) 기준이다.

핵심 아이디어

  • 일반 프롬프팅: 문제를 주면 바로 답을 출력한다.
  • CoT 프롬프팅: 문제를 주면 단계1, 단계2, 단계3을 거쳐 답에 도달한다.

예시 비교

일반 프롬프팅

Q: 2+3은? A: 5

Chain-of-Thought 프롬프팅

Q: 2+3은? 먼저 2개를 생각하고 3개를 더하면 총 5개다. A: 5

Emergent Ability

CoT에는 한 가지 조건이 있다. 모든 모델에서 작동하지는 않는다.

모델 크기CoT 적용 효과
작은 모델성능 변화가 거의 없음
대형 모델단계적 추론을 통해 성능이 향상

CoT 효과는 주로 일정 규모 이상의 대형 모델에서 관찰된다. 작은 모델의 CoT는 "유창하지만 논리적이지 않은" 결과를 만들어낸다.

실험 결과

아래 수치는 모두 Wei et al. 2022(arXiv:2201.11903)가 PaLM 540B 기준으로 보고한 값이다.

산술 추론 (GSM8K)

모델표준 프롬프팅CoT 프롬프팅
PaLM 540B17.9%56.9% (약 3배)

상식 추론 (StrategyQA)

  • 기존 최고: 69.4%
  • PaLM 540B + CoT: 75.6%

스포츠 이해

  • 95.4% (비교 대상 기준선 대비 높음)

제거 연구 (Ablation Study)

"왜 CoT가 작동하는가?"를 검증하기 위한 실험:

변형결과의미
수식만 보여주기효과 없음자연언어 설명 필요
의미 없는 토큰 추가효과 없음단순 계산 시간 증가 아님
답변 후 사고 과정효과 없음순서가 중요

결론: 실제 추론 과정의 명시화가 핵심

강건성 검증

프롬프트 민감도 테스트

  • 3명의 저자가 독립적으로 작성한 CoT → 모두 효과적
  • GSM8K 훈련 데이터에서 무작위 샘플 사용 → 작동
  • 예시 순서 변경 → 상대적으로 영향 적음

결론: 특정 스타일이 아닌 "추론 과정 명시" 자체가 중요

Out-of-Distribution 테스트

일반화 능력

  • 마지막 문자 연결: 2단어로 학습 → 3-4단어 문제 해결
  • 동전 뒤집기: 2번 뒤집기 학습 → 더 많은 뒤집기 해결

의미: 단순 패턴 매칭이 아닌 추상적 논리 구조 학습

한계

  1. 신경망이 실제로 "생각"하는지는 미해결
  2. 미세조정 확장 시 데이터 비용
  3. 올바른 추론 보장 안 됨 (할루시네이션 가능)
  4. 작은 모델이나 단순 태스크에서는 효과가 제한적

관점 변화

이전이후
모델을 어떻게 더 똑똑하게 학습시킬 것인가?이미 똑똑한 모델을 어떻게 더 잘 사용할 것인가?

CoT는 학습 방법보다 사용 방법으로 관심을 옮긴다. 대형 모델은 추론 능력을 이미 갖고 있고, 생각하는 과정을 예시로 보여주는 것만으로 그 능력을 끌어낼 수 있다.

발전

  1. CoT → ReAct: 도구 사용을 추가하여 외부 환경과 상호작용한다.
  2. CoT → ToT: 다중 경로를 탐색하여 최적의 추론 경로를 찾는다.
  3. CoT → Reflexion: 자기 성찰을 통해 실패에서 학습한다.

정리

CoT는 중간 추론 단계를 모델에 보여줘 복잡한 문제 해결 능력을 끌어내는 프롬프팅 기법이다. 효과는 일정 규모 이상의 대형 모델에서 주로 나타나며, 제거 연구는 자연언어로 된 실제 추론 과정을 명시하는 것이 핵심임을 보여준다. 다만 올바른 추론을 보장하지는 못하고 할루시네이션이 남으며, 작은 모델이나 단순 태스크에서는 이득이 제한적이다. CoT는 이후 ReAct, ToT, Reflexion 같은 기법의 출발점이 된다.

관련 개념

  • Tree of Thought (ToT): 다중 경로 확장
  • ReAct: 행동 결합
  • Reflexion: 자기 성찰 추가