AI Agent 진화사: 2022-2025 발전 타임라인
Chain of Thought부터 OpenAI o1까지 - AI 에이전트의 주요 발전을 정리합니다
타임라인 개요
2022 초 → Chain of Thought
↓
2022 중-말 → ReAct, Toolformer
↓
2023 초-중 → Reflexion, Self-Refine, CRITIC
↓
2023 중 → Tree of Thought, LATS
↓
2023 중 → Multi-Agent Debate
↓
2023 후 → Self-Driven Grounding
↓
2024 말 → OpenAI o1, DeepSeek-R1
↓
2025 → Test-Time Compute Scaling
1장: 추론의 내부화 (2022년 초)
Chain of Thought (CoT)
핵심: "Let's think step by step"
일반 질문:
Q: 5 + 9 = ?
A: 14
CoT 질문:
Q: 5 + 9 = ? 단계별로 생각해보세요.
A: 1단계: 5개가 있습니다.
2단계: 9개를 더합니다.
3단계: 5 + 9 = 14
답: 14
발견: Emergent Ability - 100B+ 모델에서만 효과 발현
한계: 할루시네이션 - 실시간 정보 접근 불가
2장: 외부 도구 통합 (2022-2023)
Toolformer (2023년 2월)
모델이 스스로 "언제 도구를 사용할지" 학습
통합 도구: 계산기, 검색 엔진, Q&A 시스템, 번역 도구, 캘린더
ReAct (2022년 10월)
Reasoning + Acting
Thought → Action → Observation → (반복)
예시:
Thought: 최신 정보가 필요하니 검색하자
Action: [Search] "롯데월드타워 높이"
Observation: 554.5미터
Thought: 답변 준비 완료
Answer: 554.5미터
성능: HotpotQA 29% → 36.4%, FEVER 45% → 79%
3장: 자기 성찰과 학습 (2023년 초)
Reflexion (2023년 3월)
핵심: 실패를 언어로 기술하고 메모리에 저장
1차 시도 → 실패 → 반성 저장 → 2차 시도 (개선)
성능: HumanEval 48% → 91%
Self-Refine (2023년 3월)
생성 → 피드백 요청 → 개선 → 반복
CRITIC (2023년 5월)
외부 도구로 검증 후 개선
4장: 탐색과 계획 (2023년 중반)
Tree of Thought (ToT) (2023년 5월)
[문제]
|
┌─────┼─────┐
| | |
[방법1] [방법2] [방법3]
↓ ↓ ↓
(성공) (실패) (탐색)
성능: "24 만들기" 게임 - CoT 4% → ToT 74% (18배 향상)
LATS (2023년 10월)
Tree Search + ReAct + Reflexion + Monte Carlo
성능: HumanEval 94.4%, HotpotQA 83.8%
5장: 다중 에이전트 협력 (2023년 중반)
Multi-Agent Debate
에이전트 A: "답은 X입니다"
에이전트 B: "아니요, Y입니다. 왜냐하면..."
에이전트 A: "좋은 지적입니다만..."
→ 투표/중재로 최종 답 결정
효과: 다양한 관점, 상호 검증, 할루시네이션 감소
MADKE (2025년 2월)
공유 지식 풀 도입으로 토론 품질 향상
6장: 환경 상호작용 (2023-2024)
Self-Driven Grounding (2023년 9월)
1. LLM이 작업을 소목표로 분해
2. 각 소목표에 검증 함수 생성
3. RL로 스킬 자동 습득
4. 새로운 작업에 재사용
7장: 내부 추론 혁명 (2024-2025)
OpenAI o1 (2024년 9월)
핵심: Reasoning Tokens (내부 추론)
기존: 사고 과정 노출
o1: 내부에서 깊은 사고 → 결과만 출력
성능: AIME 2024 GPT-4 12% → o1 85%, GPQA Diamond 인간 전문가 60% → o1 92%
특이점: "Let's think step by step"이 오히려 성능 하락
DeepSeek-R1 (2024년 12월)
순수 강화학습만으로 추론 능력 emergence
GRPO 알고리즘: 상대적 성능 비교로 학습
8장: Test-Time Compute (2025년)
Test-Time Compute Scaling
기존: 훈련에 계산 집중
새로운: 추론 시점에 계산 집중
s1 (2025년 1월)
Budget Forcing: "Wait" 토큰으로 더 깊은 사고 유도
성능: 1,000개 예제로 AIME 81% 달성
핵심 원리
- 명시화: 추론을 명시적으로 표현
- 다양성: 여러 경로/관점 탐색
- 검증: 외부 도구/다른 에이전트 검증
- 학습: 경험으로부터 개선
- 깊이: 더 깊은 사고에 시간 투자
용어 정리
| 용어 | 설명 |
|---|---|
| LLM | Large Language Model |
| Token | 모델이 처리하는 기본 단위 |
| Emergence | 스케일이 커지며 나타나는 새 능력 |
| Hallucination | 근거 없이 만들어낸 정보 |
| Grounding | 추상 개념을 실제 행동으로 변환 |
| RL | Reinforcement Learning (강화학습) |
| Test-Time Compute | 추론 시점의 계산 자원 |