BGE-M3

질의한 ‘bgm-m3’는 BAAI(Beijing Academy of Artificial Intelligence)에서 개발한 텍스트 임베딩 모델인 BGE-M3의 오기로 간주하고 설명한다.

BGE-M3는 크로스 링구얼(Cross-lingual) 정보 검색 및 자연어 처리(NLP) 파이프라인에서 사용되는 오픈 소스 임베딩 모델이다. 모델명에 포함된 ‘M3’는 이 시스템이 제공하는 세 가지 핵심 기술적 특성을 의미한다.

Multi-linguality (다중 언어 지원): 100개 이상의 다양한 언어에 대한 텍스트 임베딩 및 교차 언어 검색을 지원한다.
Multi-granularity (다중 세분성): 짧은 문장부터 긴 문서까지 다양한 길이의 텍스트를 처리한다. 최대 컨텍스트 길이는 8,192 토큰이다.
Multi-functionality (다중 기능성): 단일 신경망 모델 내에서 세 가지 다른 검색 방식을 위한 임베딩을 동시 생성한다.
- Dense Retrieval (밀집 검색): 텍스트의 의미론적(Semantic) 특징을 단일 벡터로 압축하여 검색.
- Sparse Retrieval (희소 검색): BM25와 유사하게 어휘적(Lexical) 단어 빈도를 기반으로 한 벡터 생성. (어휘 불일치 문제 해결에 용이)
- Multi-vector Retrieval (다중 벡터 검색): ColBERT 아키텍처와 같이 토큰 단위의 세밀한 벡터를 생성하여 검색 정확도 향상.

해당 모델의 객관적 성능 및 사양 파악을 위해 서구권의 대표적인 기준 모델인 OpenAI의 text-embedding-3-small과 제원을 비교한 데이터는 다음과 같다.

비교 항목	BGE-M3	OpenAI `text-embedding-3-small`
개발 주체	BAAI	OpenAI
모델 접근성	오픈 소스 (MIT License)	비공개 (API 전용)
최대 토큰 길이	8,192 토큰	8,191 토큰
지원 언어 수	100개 이상	다국어 (영어에 최적화됨)
임베딩 차원(Dimensions)	1,024	512 ~ 1,536 (가변 가능)
검색 방식(Functionality)	Dense, Sparse(Lexical), Multi-vector 동시 지원	Dense 방식 단독 지원

Hugging Face Model Card: BAAI/bge-m3 모델의 공식 호스팅 저장소 및 기술 명세서. (출처: Hugging Face, “BAAI/bge-m3”, https://huggingface.co/BAAI/bge-m3)
ArXiv 논문: 모델의 아키텍처 및 자기 지식 증류(Self-Knowledge Distillation) 훈련 방식을 설명한 공식 기술 보고서. (출처: Chen, J., et al. “BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation.” arXiv preprint arXiv:2402.03216 (2024). 퍼블리셔: Cornell University)
OpenAI API Documentation: text-embedding-3-small 모델 제원 정보. (출처: OpenAI Platform Documentation, “Embeddings”, https://platform.openai.com/docs/guides/embeddings)

tags	ai_log, auto_generated
aliases	BGE-M3 임베딩 모델, BGE-M3 다중 언어 임베딩 모델, BGE M3

Quartz 5