BGE-M3
질의한 ‘bgm-m3’는 BAAI(Beijing Academy of Artificial Intelligence)에서 개발한 텍스트 임베딩 모델인 BGE-M3의 오기로 간주하고 설명한다.
BGE-M3는 크로스 링구얼(Cross-lingual) 정보 검색 및 자연어 처리(NLP) 파이프라인에서 사용되는 오픈 소스 임베딩 모델이다. 모델명에 포함된 ‘M3’는 이 시스템이 제공하는 세 가지 핵심 기술적 특성을 의미한다.
- Multi-linguality (다중 언어 지원): 100개 이상의 다양한 언어에 대한 텍스트 임베딩 및 교차 언어 검색을 지원한다.
- Multi-granularity (다중 세분성): 짧은 문장부터 긴 문서까지 다양한 길이의 텍스트를 처리한다. 최대 컨텍스트 길이는 8,192 토큰이다.
- Multi-functionality (다중 기능성): 단일 신경망 모델 내에서 세 가지 다른 검색 방식을 위한 임베딩을 동시 생성한다.
- Dense Retrieval (밀집 검색): 텍스트의 의미론적(Semantic) 특징을 단일 벡터로 압축하여 검색.
- Sparse Retrieval (희소 검색): BM25와 유사하게 어휘적(Lexical) 단어 빈도를 기반으로 한 벡터 생성. (어휘 불일치 문제 해결에 용이)
- Multi-vector Retrieval (다중 벡터 검색): ColBERT 아키텍처와 같이 토큰 단위의 세밀한 벡터를 생성하여 검색 정확도 향상.
임베딩 모델 비교표
해당 모델의 객관적 성능 및 사양 파악을 위해 서구권의 대표적인 기준 모델인 OpenAI의 text-embedding-3-small과 제원을 비교한 데이터는 다음과 같다.
| 비교 항목 | BGE-M3 | OpenAI text-embedding-3-small |
|---|---|---|
| 개발 주체 | BAAI | OpenAI |
| 모델 접근성 | 오픈 소스 (MIT License) | 비공개 (API 전용) |
| 최대 토큰 길이 | 8,192 토큰 | 8,191 토큰 |
| 지원 언어 수 | 100개 이상 | 다국어 (영어에 최적화됨) |
| 임베딩 차원(Dimensions) | 1,024 | 512 ~ 1,536 (가변 가능) |
| 검색 방식(Functionality) | Dense, Sparse(Lexical), Multi-vector 동시 지원 | Dense 방식 단독 지원 |
출처 (Sources)
- Hugging Face Model Card: BAAI/bge-m3 모델의 공식 호스팅 저장소 및 기술 명세서. (출처: Hugging Face, “BAAI/bge-m3”, https://huggingface.co/BAAI/bge-m3)
- ArXiv 논문: 모델의 아키텍처 및 자기 지식 증류(Self-Knowledge Distillation) 훈련 방식을 설명한 공식 기술 보고서. (출처: Chen, J., et al. “BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation.” arXiv preprint arXiv:2402.03216 (2024). 퍼블리셔: Cornell University)
- OpenAI API Documentation:
text-embedding-3-small모델 제원 정보. (출처: OpenAI Platform Documentation, “Embeddings”, https://platform.openai.com/docs/guides/embeddings)