Voyage AI

Voyage AI는 스탠퍼드 대학교(Stanford University) 소속 연구진들을 주축으로 2023년에 설립된 미국의 인공지능 기업이자, 해당 기업이 개발 및 제공하는 임베딩(Embedding) 및 리랭커(Reranker) 모델 인프라의 명칭이다. 이 서비스는 대규모 언어 모델(LLM)의 정보 검색 능력을 향상시키는 검색 증강 생성(RAG, Retrieval-Augmented Generation) 시스템 구축에 최적화되도록 설계되었다.

주요 특징은 다음과 같다.

  1. RAG 파이프라인 최적화: 문장 생성 그 자체보다 텍스트를 고차원 벡터로 변환하여 정보의 의미론적 유사성을 정밀하게 검색해 내는 임베딩 및 재정렬(Reranking) 작업 구동에 핵심 초점을 두고 있다.
  2. 도메인 특화 모델 (Domain-Specificity): 보편적인 용어 위주로 학습된 범용 모델뿐만 아니라 금융(Finance), 법률(Law), 의료(Clinical), 프로그래밍(Code) 등 특정 산업 분야의 복잡하고 전문적인 문맥을 이해하도록 미세 조정된 도메인 전용 모델 API를 별도로 제공한다.
  3. 최상위 지표 (SOTA) 달성: 글로벌 텍스트 임베딩 성능 분석 지표 중 하나인 MTEB(Massive Text Embedding Benchmark) 테스트에서 경쟁 대기업의 모델 성능을 상회하며 최우수 성능 수준(State-of-the-Art)을 지속적으로 증명하고 있다.
  4. 대규모 문맥 창 지원: 단일 요청으로 최대 32,000에서 128,000 토큰에 달하는 긴 문맥 창(Context length)을 처리할 수 있어 문서를 강제로 분할(Chunking)하는 데 소비되는 연산 로직과 데이터 손실률을 줄인다.

기업 환경의 RAG 시스템 구축 목적으로 널리 사용되는 주요 서구권 임베딩 모델 제공사들과의 비교 데이터는 다음과 같다.

특징Voyage AIOpenAICohere
개발(서비스) 주체Voyage AI (미국)OpenAI (미국)Cohere (캐나다)
핵심 기술 및 초점텍스트 임베딩 및 리랭킹 (RAG 전용)범용 거대 언어 모델 (LLM) 및 AGI기업용 텍스트 생성 기반 LLM 및 RAG
주요 제공 모델 군voyage-3, voyage-finance-2text-embedding-3-largeembed-english-v3.0
도메인 특화 모델 제공네이티브 지원 (금융, 법률, 멀티모달 등)미지원 (일반 범용 목적 중심)미지원 (일반 텍스트 및 범용 중심)
리랭커(Reranker) API자체 모델 기본 제공기능 제공 안 함자체 모델 기본 제공

출처 데이터:

  1. Voyage AI Official Website. “Voyage AI: State-of-the-Art Embedding Models.” (https://www.voyageai.com)
  2. Hugging Face Spaces. “MTEB (Massive Text Embedding Benchmark) Leaderboard.” (https://huggingface.co/spaces/mteb/leaderboard)
  3. Voyage AI Official Blog. “Voyage 3 and Voyage 3 Lite: State-of-the-art General-Purpose Embedding Models.” (https://blog.voyageai.com/)

Entities