OpenAI o1: 내부 추론 토큰의 혁명

내부 추론 토큰을 사용하는 "생각하는" AI

개념

OpenAI o1은 기존 모델과 달리 사고 과정을 사용자에게 노출하지 않고, 내부적으로 깊은 추론 후 결과만 출력하는 모델입니다.

동작 방식 비교

기존 모델:
질문 → [보이는 사고 과정] → 답

o1:
질문 → [내부 Reasoning Tokens] → 답만 출력
       (사용자에게 비공개)

Reasoning Tokens

o1의 핵심은 Reasoning Tokens입니다:

사용자에게는 보이지 않음
내부적으로 수십~수백 개의 추론 토큰 생성
이 과정에서 문제를 깊이 분석

내부 동작 예시

[사용자 관점]
Q: "AIME 2024 문제 풀어줘"
A: "답은 42입니다." (바로 정답)

[내부에서 일어나는 일]
Q: "AIME 2024 문제 풀어줘"
[Reasoning Token 1] "이 문제는 정수론 문제네..."
[Reasoning Token 2] "먼저 소인수분해를 해보면..."
[Reasoning Token 3] "오일러 함수를 적용하면..."
...
[Reasoning Token 147] "따라서 답은 42"
A: "답은 42입니다."

강화학습 기반 훈련

o1은 강화학습으로 훈련됩니다:

1. 텍스트(추론 과정) 생성
    ↓
2. 최종 답 검증 (맞음: +1, 틀림: -1)
    ↓
3. 정책 개선: "어떤 추론이 정답으로 이어지는가"
    ↓
4. 수백만 번 반복

PPO (Proximal Policy Optimization)

o1의 훈련에는 PPO 알고리즘이 사용됩니다:

보상 신호: 최종 답의 정확도
정책 업데이트: 정답으로 이어지는 추론 패턴 강화
탐색: 다양한 추론 경로 시도

성능

벤치마크	GPT-4	o1-preview	o1-full
AIME 2024	12%	74%	85%
GPQA Diamond	-	-	92%
인간 전문가	-	-	~60%

AIME (미국 수학 올림피아드 초청 시험)

고등학생 수학 영재를 위한 시험
GPT-4: 12% (거의 못 품)
o1: 85% (대부분 해결)

GPQA Diamond

박사급 전문가도 60%밖에 못 푸는 문제
o1: 92% (인간 전문가 크게 능가)

특이한 성질

"Let's think step by step"이 오히려 성능 하락

기존 CoT 프롬프팅 기법이 o1에서는 역효과를 냅니다:

조건	AIME 성능
o1 (기본)	85%
o1 + "Let's think step by step"	~80%

왜 그럴까?

o1은 이미 최적의 추론 방식으로 훈련되었습니다. 외부 지시가 오히려 최적화된 내부 추론을 방해합니다.

[기존 모델]
"Let's think step by step" → 추론 유도 → 성능 향상

[o1]
"Let's think step by step" → 내부 최적 추론과 충돌 → 성능 하락

o1 vs GPT-4

	GPT-4	o1
사고 과정	외부 노출	내부 처리
프롬프팅 효과	크게 영향	영향 적음
추론 깊이	프롬프트 의존	자체 최적화
수학/과학	보통	탁월
비용	보통	높음

사용 시 주의점

하지 말아야 할 것

# 불필요한 지시
"단계별로 생각해주세요."
"천천히 분석해주세요."
"각 단계를 설명해주세요."

→ o1은 이미 내부적으로 최적의 방식으로 추론함

해야 할 것

# 명확한 문제 제시
"AIME 2024 문제 5번을 풀어주세요."
"이 증명의 오류를 찾아주세요."
"최적의 알고리즘을 설계해주세요."

→ 문제만 명확히 제시하고 추론은 o1에게 맡김

적합한 사용 사례

적합	부적합
수학 올림피아드	일반 대화
과학 연구 문제	창작 글쓰기
복잡한 코딩	간단한 QA
논리 퍼즐	일상적 작업

비용 고려

o1은 내부 추론 토큰을 많이 사용하므로:

입력 토큰: 질문 길이
출력 토큰: 답변 + 내부 추론 토큰
비용이 GPT-4보다 높을 수 있음

GPT-4:  질문(100) + 답변(200) = 300 토큰
o1:     질문(100) + 내부추론(500) + 답변(200) = 800 토큰

개념