OpenAI o1: 내부 추론 토큰의 혁명
기존 모델과 달리 사고 과정을 노출하지 않고, 내부적으로 깊은 추론 후 결과만 출력하는 '생각하는' AI
2026년 2월 1일·6 min read·
ai
ai-agent
llm
openai
o1
reasoning
내부 추론 토큰을 사용하는 "생각하는" AI
개념
OpenAI o1은 기존 모델과 달리 사고 과정을 사용자에게 노출하지 않고, 내부적으로 깊은 추론 후 결과만 출력하는 모델입니다.
동작 방식 비교
기존 모델:
질문 → [보이는 사고 과정] → 답
o1:
질문 → [내부 Reasoning Tokens] → 답만 출력
(사용자에게 비공개)
Reasoning Tokens
o1의 핵심은 Reasoning Tokens입니다:
- 사용자에게는 보이지 않음
- 내부적으로 수십~수백 개의 추론 토큰 생성
- 이 과정에서 문제를 깊이 분석
내부 동작 예시
[사용자 관점]
Q: "AIME 2024 문제 풀어줘"
A: "답은 42입니다." (바로 정답)
[내부에서 일어나는 일]
Q: "AIME 2024 문제 풀어줘"
[Reasoning Token 1] "이 문제는 정수론 문제네..."
[Reasoning Token 2] "먼저 소인수분해를 해보면..."
[Reasoning Token 3] "오일러 함수를 적용하면..."
...
[Reasoning Token 147] "따라서 답은 42"
A: "답은 42입니다."
강화학습 기반 훈련
o1은 강화학습으로 훈련됩니다:
1. 텍스트(추론 과정) 생성
↓
2. 최종 답 검증 (맞음: +1, 틀림: -1)
↓
3. 정책 개선: "어떤 추론이 정답으로 이어지는가"
↓
4. 수백만 번 반복
PPO (Proximal Policy Optimization)
o1의 훈련에는 PPO 알고리즘이 사용됩니다:
- 보상 신호: 최종 답의 정확도
- 정책 업데이트: 정답으로 이어지는 추론 패턴 강화
- 탐색: 다양한 추론 경로 시도
성능
| 벤치마크 | GPT-4 | o1-preview | o1-full |
|---|---|---|---|
| AIME 2024 | 12% | 74% | 85% |
| GPQA Diamond | - | - | 92% |
| 인간 전문가 | - | - | ~60% |
AIME (미국 수학 올림피아드 초청 시험)
- 고등학생 수학 영재를 위한 시험
- GPT-4: 12% (거의 못 품)
- o1: 85% (대부분 해결)
GPQA Diamond
- 박사급 전문가도 60%밖에 못 푸는 문제
- o1: 92% (인간 전문가 크게 능가)
특이한 성질
"Let's think step by step"이 오히려 성능 하락
기존 CoT 프롬프팅 기법이 o1에서는 역효과를 냅니다:
| 조건 | AIME 성능 |
|---|---|
| o1 (기본) | 85% |
| o1 + "Let's think step by step" | ~80% |
왜 그럴까?
o1은 이미 최적의 추론 방식으로 훈련되었습니다. 외부 지시가 오히려 최적화된 내부 추론을 방해합니다.
[기존 모델]
"Let's think step by step" → 추론 유도 → 성능 향상
[o1]
"Let's think step by step" → 내부 최적 추론과 충돌 → 성능 하락
o1 vs GPT-4
| GPT-4 | o1 | |
|---|---|---|
| 사고 과정 | 외부 노출 | 내부 처리 |
| 프롬프팅 효과 | 크게 영향 | 영향 적음 |
| 추론 깊이 | 프롬프트 의존 | 자체 최적화 |
| 수학/과학 | 보통 | 탁월 |
| 비용 | 보통 | 높음 |
사용 시 주의점
하지 말아야 할 것
# 불필요한 지시
"단계별로 생각해주세요."
"천천히 분석해주세요."
"각 단계를 설명해주세요."
→ o1은 이미 내부적으로 최적의 방식으로 추론함
해야 할 것
# 명확한 문제 제시
"AIME 2024 문제 5번을 풀어주세요."
"이 증명의 오류를 찾아주세요."
"최적의 알고리즘을 설계해주세요."
→ 문제만 명확히 제시하고 추론은 o1에게 맡김
적합한 사용 사례
| 적합 | 부적합 |
|---|---|
| 수학 올림피아드 | 일반 대화 |
| 과학 연구 문제 | 창작 글쓰기 |
| 복잡한 코딩 | 간단한 QA |
| 논리 퍼즐 | 일상적 작업 |
비용 고려
o1은 내부 추론 토큰을 많이 사용하므로:
- 입력 토큰: 질문 길이
- 출력 토큰: 답변 + 내부 추론 토큰
- 비용이 GPT-4보다 높을 수 있음
GPT-4: 질문(100) + 답변(200) = 300 토큰
o1: 질문(100) + 내부추론(500) + 답변(200) = 800 토큰
관련 개념
- DeepSeek-R1: 오픈소스 대안
- Test-Time Compute Scaling: 추론 시간 최적화
- Chain of Thought: 기존 추론 유도 기법