OpenAI o1: 내부 추론 토큰의 혁명
기존 모델과 달리 사고 과정을 노출하지 않고, 내부적으로 깊은 추론 후 결과만 출력하는 '생각하는' AI
Contents
내부 추론 토큰을 사용하는 "생각하는" AI
개념
기존 LLM은 사용자에게 추론 과정을 그대로 노출하거나, 프롬프트 엔지니어링을 통해 사고를 유도해야 했다. OpenAI o1은 이러한 접근을 근본적으로 바꾸어, 모델 내부에서 수백 개의 추론 토큰을 자체적으로 생성하고 소비한 뒤 최종 결과만 출력하는 구조를 도입했다. 이 설계는 수학 올림피아드와 박사급 과학 문제에서 인간 전문가를 능가하는 성능을 이끌어냈다는 점에서 추론 패러다임의 전환점으로 평가된다.
OpenAI o1은 기존 모델과 달리 사고 과정을 사용자에게 노출하지 않고, 내부적으로 깊은 추론 후 결과만 출력하는 모델이다.
동작 방식 비교
- 기존 모델: 질문을 받으면 보이는 사고 과정을 거쳐 답을 출력한다.
- o1: 질문을 받으면 내부 Reasoning Tokens로 추론한 뒤 답만 출력한다. 사고 과정은 사용자에게 비공개이다.
Reasoning Tokens
o1의 핵심은 Reasoning Tokens이다:
- 사용자에게는 보이지 않음
- 내부적으로 수십~수백 개의 추론 토큰 생성
- 이 과정에서 문제를 깊이 분석
내부 동작 예시
사용자 관점 Q: "AIME 2024 문제 풀어줘" A: "답은 42이다." (바로 정답)
내부에서 일어나는 일 Q: "AIME 2024 문제 풀어줘" Reasoning Token 1: "이 문제는 정수론 문제네..." Reasoning Token 2: "먼저 소인수분해를 해보면..." Reasoning Token 3: "오일러 함수를 적용하면..." ... Reasoning Token 147: "따라서 답은 42" A: "답은 42이다."
강화학습 기반 훈련
o1은 강화학습으로 훈련된다:
- 추론 과정 생성: 텍스트로 추론 과정을 생성한다.
- 최종 답 검증: 정답이면 +1, 오답이면 -1 보상을 부여한다.
- 정책 개선: 어떤 추론 패턴이 정답으로 이어지는지 학습한다.
- 반복 훈련: 이 과정을 수백만 번 반복한다.
PPO (Proximal Policy Optimization)
o1의 훈련에는 PPO 알고리즘이 사용된다:
- 보상 신호: 최종 답의 정확도
- 정책 업데이트: 정답으로 이어지는 추론 패턴 강화
- 탐색: 여러 추론 경로 시도
성능
| 벤치마크 | GPT-4 | o1-preview | o1-full |
|---|---|---|---|
| AIME 2024 | 12% | 74% | 85% |
| GPQA Diamond | - | - | 92% |
| 인간 전문가 | - | - | ~60% |
AIME (미국 수학 올림피아드 초청 시험)
- 고등학생 수학 영재를 위한 시험
- GPT-4: 12% (거의 못 품)
- o1: 85% (대부분 해결)
GPQA Diamond
- 박사급 전문가도 60%밖에 못 푸는 문제
- o1: 92% (인간 전문가 크게 능가)
특이한 성질
"Let's think step by step"이 오히려 성능 하락
기존 CoT 프롬프팅 기법이 o1에서는 역효과를 낸다:
| 조건 | AIME 성능 |
|---|---|
| o1 (기본) | 85% |
| o1 + "Let's think step by step" | ~80% |
왜 그럴까?
o1은 이미 최적의 추론 방식으로 훈련되었다. 외부 지시가 오히려 최적화된 내부 추론을 방해한다.
- 기존 모델: "Let's think step by step"이 추론을 유도하여 성능이 향상된다.
- o1: "Let's think step by step"이 내부 최적 추론과 충돌하여 오히려 성능이 하락한다.
o1 vs GPT-4
| GPT-4 | o1 | |
|---|---|---|
| 사고 과정 | 외부 노출 | 내부 처리 |
| 프롬프팅 효과 | 크게 영향 | 영향 적음 |
| 추론 깊이 | 프롬프트 의존 | 자체 최적화 |
| 수학/과학 | 보통 | 탁월 |
| 비용 | 보통 | 높음 |
사용 시 주의점
하지 말아야 할 것
"단계별로 생각해주자." "천천히 분석해주자." "각 단계를 설명해주자."
이런 불필요한 지시는 피해야 한다. o1은 이미 내부적으로 최적의 방식으로 추론한다.
해야 할 것
"AIME 2024 문제 5번을 풀어주자." "이 증명의 오류를 찾아주자." "최적의 알고리즘을 설계해주자."
문제만 명확히 제시하고 추론은 o1에게 맡기는 것이 효과적이다.
적합한 사용 사례
| 적합 | 부적합 |
|---|---|
| 수학 올림피아드 | 일반 대화 |
| 과학 연구 문제 | 창작 글쓰기 |
| 복잡한 코딩 | 간단한 QA |
| 논리 퍼즐 | 일상적 작업 |
비용 고려
o1은 내부 추론 토큰을 많이 사용하므로:
-
입력 토큰: 질문 길이
-
출력 토큰: 답변 + 내부 추론 토큰
-
비용이 GPT-4보다 높을 수 있음
-
GPT-4: 질문(100) + 답변(200) = 300 토큰
-
o1: 질문(100) + 내부추론(500) + 답변(200) = 800 토큰
관련 개념
- DeepSeek-R1: 오픈소스 대안
- Test-Time Compute Scaling: 추론 시간 최적화
- Chain of Thought: 기존 추론 유도 기법