BGE-M3

질의한 ‘bgm-m3’는 BAAI(Beijing Academy of Artificial Intelligence)에서 개발한 텍스트 임베딩 모델인 BGE-M3의 오기로 간주하고 설명한다.

BGE-M3는 크로스 링구얼(Cross-lingual) 정보 검색 및 자연어 처리(NLP) 파이프라인에서 사용되는 오픈 소스 임베딩 모델이다. 모델명에 포함된 ‘M3’는 이 시스템이 제공하는 세 가지 핵심 기술적 특성을 의미한다.

  1. Multi-linguality (다중 언어 지원): 100개 이상의 다양한 언어에 대한 텍스트 임베딩 및 교차 언어 검색을 지원한다.
  2. Multi-granularity (다중 세분성): 짧은 문장부터 긴 문서까지 다양한 길이의 텍스트를 처리한다. 최대 컨텍스트 길이는 8,192 토큰이다.
  3. Multi-functionality (다중 기능성): 단일 신경망 모델 내에서 세 가지 다른 검색 방식을 위한 임베딩을 동시 생성한다.
    • Dense Retrieval (밀집 검색): 텍스트의 의미론적(Semantic) 특징을 단일 벡터로 압축하여 검색.
    • Sparse Retrieval (희소 검색): BM25와 유사하게 어휘적(Lexical) 단어 빈도를 기반으로 한 벡터 생성. (어휘 불일치 문제 해결에 용이)
    • Multi-vector Retrieval (다중 벡터 검색): ColBERT 아키텍처와 같이 토큰 단위의 세밀한 벡터를 생성하여 검색 정확도 향상.

임베딩 모델 비교표

해당 모델의 객관적 성능 및 사양 파악을 위해 서구권의 대표적인 기준 모델인 OpenAI의 text-embedding-3-small과 제원을 비교한 데이터는 다음과 같다.

비교 항목BGE-M3OpenAI text-embedding-3-small
개발 주체BAAIOpenAI
모델 접근성오픈 소스 (MIT License)비공개 (API 전용)
최대 토큰 길이8,192 토큰8,191 토큰
지원 언어 수100개 이상다국어 (영어에 최적화됨)
임베딩 차원(Dimensions)1,024512 ~ 1,536 (가변 가능)
검색 방식(Functionality)Dense, Sparse(Lexical), Multi-vector 동시 지원Dense 방식 단독 지원

출처 (Sources)

  • Hugging Face Model Card: BAAI/bge-m3 모델의 공식 호스팅 저장소 및 기술 명세서. (출처: Hugging Face, “BAAI/bge-m3”, https://huggingface.co/BAAI/bge-m3)
  • ArXiv 논문: 모델의 아키텍처 및 자기 지식 증류(Self-Knowledge Distillation) 훈련 방식을 설명한 공식 기술 보고서. (출처: Chen, J., et al. “BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation.” arXiv preprint arXiv:2402.03216 (2024). 퍼블리셔: Cornell University)
  • OpenAI API Documentation: text-embedding-3-small 모델 제원 정보. (출처: OpenAI Platform Documentation, “Embeddings”, https://platform.openai.com/docs/guides/embeddings)

Entities