Voyage AI
Voyage AI는 스탠퍼드 대학교(Stanford University) 소속 연구진들을 주축으로 2023년에 설립된 미국의 인공지능 기업이자, 해당 기업이 개발 및 제공하는 임베딩(Embedding) 및 리랭커(Reranker) 모델 인프라의 명칭이다. 이 서비스는 대규모 언어 모델(LLM)의 정보 검색 능력을 향상시키는 검색 증강 생성(RAG, Retrieval-Augmented Generation) 시스템 구축에 최적화되도록 설계되었다.
주요 특징은 다음과 같다.
- RAG 파이프라인 최적화: 문장 생성 그 자체보다 텍스트를 고차원 벡터로 변환하여 정보의 의미론적 유사성을 정밀하게 검색해 내는 임베딩 및 재정렬(Reranking) 작업 구동에 핵심 초점을 두고 있다.
- 도메인 특화 모델 (Domain-Specificity): 보편적인 용어 위주로 학습된 범용 모델뿐만 아니라 금융(Finance), 법률(Law), 의료(Clinical), 프로그래밍(Code) 등 특정 산업 분야의 복잡하고 전문적인 문맥을 이해하도록 미세 조정된 도메인 전용 모델 API를 별도로 제공한다.
- 최상위 지표 (SOTA) 달성: 글로벌 텍스트 임베딩 성능 분석 지표 중 하나인 MTEB(Massive Text Embedding Benchmark) 테스트에서 경쟁 대기업의 모델 성능을 상회하며 최우수 성능 수준(State-of-the-Art)을 지속적으로 증명하고 있다.
- 대규모 문맥 창 지원: 단일 요청으로 최대 32,000에서 128,000 토큰에 달하는 긴 문맥 창(Context length)을 처리할 수 있어 문서를 강제로 분할(Chunking)하는 데 소비되는 연산 로직과 데이터 손실률을 줄인다.
기업 환경의 RAG 시스템 구축 목적으로 널리 사용되는 주요 서구권 임베딩 모델 제공사들과의 비교 데이터는 다음과 같다.
| 특징 | Voyage AI | OpenAI | Cohere |
|---|---|---|---|
| 개발(서비스) 주체 | Voyage AI (미국) | OpenAI (미국) | Cohere (캐나다) |
| 핵심 기술 및 초점 | 텍스트 임베딩 및 리랭킹 (RAG 전용) | 범용 거대 언어 모델 (LLM) 및 AGI | 기업용 텍스트 생성 기반 LLM 및 RAG |
| 주요 제공 모델 군 | voyage-3, voyage-finance-2 등 | text-embedding-3-large 등 | embed-english-v3.0 등 |
| 도메인 특화 모델 제공 | 네이티브 지원 (금융, 법률, 멀티모달 등) | 미지원 (일반 범용 목적 중심) | 미지원 (일반 텍스트 및 범용 중심) |
| 리랭커(Reranker) API | 자체 모델 기본 제공 | 기능 제공 안 함 | 자체 모델 기본 제공 |
출처 데이터:
- Voyage AI Official Website. “Voyage AI: State-of-the-Art Embedding Models.” (https://www.voyageai.com)
- Hugging Face Spaces. “MTEB (Massive Text Embedding Benchmark) Leaderboard.” (https://huggingface.co/spaces/mteb/leaderboard)
- Voyage AI Official Blog. “Voyage 3 and Voyage 3 Lite: State-of-the-art General-Purpose Embedding Models.” (https://blog.voyageai.com/)