AI Agent 진화사: 2022-2025 발전 타임라인

타임라인 개요

2022 초 → Chain of Thought
    ↓
2022 중-말 → ReAct, Toolformer
    ↓
2023 초-중 → Reflexion, Self-Refine, CRITIC
    ↓
2023 중 → Tree of Thought, LATS
    ↓
2023 중 → Multi-Agent Debate
    ↓
2023 후 → Self-Driven Grounding
    ↓
2024 말 → OpenAI o1, DeepSeek-R1
    ↓
2025 → Test-Time Compute Scaling

1장: 추론의 내부화 (2022년 초)

Chain of Thought (CoT)

핵심: "Let's think step by step"

일반 질문:
Q: 5 + 9 = ?
A: 14

CoT 질문:
Q: 5 + 9 = ? 단계별로 생각해보세요.
A: 1단계: 5개가 있습니다.
   2단계: 9개를 더합니다.
   3단계: 5 + 9 = 14
   답: 14

발견: Emergent Ability - 100B+ 모델에서만 효과 발현

한계: 할루시네이션 - 실시간 정보 접근 불가

2장: 외부 도구 통합 (2022-2023)

Toolformer (2023년 2월)

모델이 스스로 "언제 도구를 사용할지" 학습

통합 도구: 계산기, 검색 엔진, Q&A 시스템, 번역 도구, 캘린더

ReAct (2022년 10월)

Reasoning + Acting

Thought → Action → Observation → (반복)

예시:

Thought: 최신 정보가 필요하니 검색하자
Action: [Search] "롯데월드타워 높이"
Observation: 554.5미터
Thought: 답변 준비 완료
Answer: 554.5미터

성능: HotpotQA 29% → 36.4%, FEVER 45% → 79%

3장: 자기 성찰과 학습 (2023년 초)

Reflexion (2023년 3월)

핵심: 실패를 언어로 기술하고 메모리에 저장

1차 시도 → 실패 → 반성 저장 → 2차 시도 (개선)

성능: HumanEval 48% → 91%

Self-Refine (2023년 3월)

생성 → 피드백 요청 → 개선 → 반복

CRITIC (2023년 5월)

외부 도구로 검증 후 개선

4장: 탐색과 계획 (2023년 중반)

Tree of Thought (ToT) (2023년 5월)

        [문제]
          |
    ┌─────┼─────┐
    |     |     |
 [방법1] [방법2] [방법3]
   ↓      ↓      ↓
 (성공) (실패)  (탐색)

성능: "24 만들기" 게임 - CoT 4% → ToT 74% (18배 향상)

LATS (2023년 10월)

Tree Search + ReAct + Reflexion + Monte Carlo

성능: HumanEval 94.4%, HotpotQA 83.8%

5장: 다중 에이전트 협력 (2023년 중반)

Multi-Agent Debate

에이전트 A: "답은 X입니다"
에이전트 B: "아니요, Y입니다. 왜냐하면..."
에이전트 A: "좋은 지적입니다만..."
→ 투표/중재로 최종 답 결정

효과: 다양한 관점, 상호 검증, 할루시네이션 감소

MADKE (2025년 2월)

공유 지식 풀 도입으로 토론 품질 향상

6장: 환경 상호작용 (2023-2024)

Self-Driven Grounding (2023년 9월)

1. LLM이 작업을 소목표로 분해
2. 각 소목표에 검증 함수 생성
3. RL로 스킬 자동 습득
4. 새로운 작업에 재사용

7장: 내부 추론 혁명 (2024-2025)

OpenAI o1 (2024년 9월)

핵심: Reasoning Tokens (내부 추론)

기존: 사고 과정 노출
o1: 내부에서 깊은 사고 → 결과만 출력

성능: AIME 2024 GPT-4 12% → o1 85%, GPQA Diamond 인간 전문가 60% → o1 92%

특이점: "Let's think step by step"이 오히려 성능 하락

DeepSeek-R1 (2024년 12월)

순수 강화학습만으로 추론 능력 emergence

GRPO 알고리즘: 상대적 성능 비교로 학습

8장: Test-Time Compute (2025년)

Test-Time Compute Scaling

기존: 훈련에 계산 집중
새로운: 추론 시점에 계산 집중

s1 (2025년 1월)

Budget Forcing: "Wait" 토큰으로 더 깊은 사고 유도

성능: 1,000개 예제로 AIME 81% 달성

핵심 원리

명시화: 추론을 명시적으로 표현
다양성: 여러 경로/관점 탐색
검증: 외부 도구/다른 에이전트 검증
학습: 경험으로부터 개선
깊이: 더 깊은 사고에 시간 투자

용어 정리

용어	설명
LLM	Large Language Model
Token	모델이 처리하는 기본 단위
Emergence	스케일이 커지며 나타나는 새 능력
Hallucination	근거 없이 만들어낸 정보
Grounding	추상 개념을 실제 행동으로 변환
RL	Reinforcement Learning (강화학습)
Test-Time Compute	추론 시점의 계산 자원