LLM Agent Survey: 에이전트 아키텍처 종합

논문: "Large Language Model Agent: A Survey on Methodology, Applications and Challenges"

개요

이 서베이 논문의 핵심 발견은 개별 에이전트의 성능보다 에이전트 간의 협력 구조가 전체 시스템의 품질을 결정한다는 점이다. Build-Collaborate-Evolve 프레임워크를 통해 에이전트의 구성(프로파일, 메모리, 계획, 행동), 협력(조직 구조, 토론, 분업), 진화(자기 학습, 외부 피드백)를 체계적으로 분류하고, 각 차원에서의 설계 선택이 실제 응용 성능에 어떤 영향을 미치는지를 분석한다.

LLM 에이전트는 단순한 채팅봇이 아닌, 환경을 인식하고 목표를 추론하며 실제로 행동을 실행할 수 있는 지능형 실체이다.

DeepResearch, DeepSearch, Manus 같은 상용 시스템들이 이를 증명하고 있다.

Build-Collaborate-Evolve 프레임워크

LLM 에이전트는 세 가지 핵심 차원으로 이해할 수 있다:

구성 (Construction)

에이전트의 기본 구성 요소이다.

Profile Definition (역할 정의)

유형	설명	예시
Human-Curated Static	명확한 역할 지정	ChatDev (PM, 개발자, 테스터)
Batch-Generated Dynamic	다양한 성격/배경 생성	Generative Agents

Human-Curated Static Profile Role: Senior Backend Developer Skills: Python, Django, PostgreSQL Personality: Detail-oriented, thorough

Batch-Generated Dynamic Profile Name: Alex Background: 10 years in fintech Personality: Risk-averse, analytical Current mood: Focused

Memory Mechanism (메모리 메커니즘)

유형	설명	활용
단기 메모리	현재 대화 컨텍스트	즉시 참조
장기 메모리	과거 경험 저장	Reflexion, Skill Library
외부 메모리	데이터베이스, 검색	RAG

Planning Capability (계획 능력)

유형	설명	기법
Single-path	순차적 계획	Plan-and-Solve
Multi-path	다중 경로 탐색	Tree of Thought

Action Execution (행동 실행)

도구 사용 (계산기, 검색, API)
환경 상호작용
코드 실행

협력 (Collaboration)

다중 에이전트 간의 협업 구조이다.

조직 구조

구조	특징	장점	예시
중앙집중식	일관성, 빠른 의사결정	단순, 예측 가능	MetaGPT
분산식	창발성, 다양한 관점	유연성	AutoGen
하이브리드	전략적 계획 + 전술적 협상	균형	AFlow

Multi-Agent Debate

여러 에이전트가 토론하며 상호 검증:

Agent A: "답은 X이다" Agent B: "아니요, Y이다. 왜냐하면..." Agent A: "좋은 지적이다만..." 투표/중재로 최종 답 결정

효과:

각 에이전트의 편견을 상쇄
집단의 지혜 효과
강제된 자기 성찰

진화 (Evolution)

경험을 통한 학습과 개선이다.

학습 유형

유형	설명	예시
자기 학습	자신의 성과 평가 및 개선	Reflexion
협력적 학습	다른 에이전트와의 상호작용	Multi-Agent Debate
외부 피드백	환경과 사용자로부터의 학습	RLHF

응용 분야

과학 발견

시스템	설명
SciAgents	신약 개발 (온톨로지스트 + 과학자 + 비평가)
ChemCrow	18개 전문 화학 도구 통합
BioDiscoveryAgent	유전자 중단 실험 설계

의료

시스템	설명
AgentHospital	의료 진료 시뮬레이션
MedAgents	다중 전문의 진단 시스템

소프트웨어 개발

시스템	설명
ChatDev	소프트웨어 개발 프로세스 모방
MetaGPT	소프트웨어 회사 에뮬레이션

평가 체계

주요 벤치마크

벤치마크	설명	평가 대상
AgentBench	8개 서로 다른 환경	범용 능력
Mind2Web	137개 실제 웹사이트	웹 탐색
OSWorld	다중 OS 테스트	컴퓨터 사용
MedAgentBench	300명 임상의 설계	의료 진단

한계와 도전

한계	설명
확장성	수십 개 이상의 에이전트 조율 어려움
메모리 제약	유한한 컨텍스트 윈도우
신뢰성	고위험 분야에서의 단독 사용 부적절
비용	대규모 상호작용의 계산 비용
설명 가능성	복잡한 결정의 이해 어려움

핵심 통찰

LLM 에이전트의 진정한 능력은 그것들이 얼마나 "강한"가가 아니라, 얼마나 잘 "어울리는가"에 있다.

마치 오케스트라가 악기의 품질보다 조화로 평가되듯이, LLM 에이전트 시스템도 개별 에이전트의 능력보다 그들의 협력 방식으로 평가되어야 한다.

미래 방향

방향	설명
자율성 향상	인간 개입 최소화
도메인 특화	의료, 법률, 과학 전문 에이전트
안전성	신뢰할 수 있는 에이전트
효율성	비용 효율적인 협력

개요