Xinference
Xinference(Xorbits Inference)는 거대 언어 모델(LLM), 음성 인식 모델, 멀티모달 모델, 임베딩 모델 등 다양한 AI 모델을 로컬 디바이스 또는 분산 클러스터 환경에서 쉽게 배포하고 서비스할 수 있도록 설계된 오픈 소스 모델 추론(Inference) 플랫폼이다.
다양한 하드웨어 환경과 추론 엔진을 단일 인터페이스로 추상화하여, 인프라의 복잡성을 줄이고 모델 서빙 효율을 극대화하는 것에 목적을 둔다.
주요 특징
- 다중 모델 및 백엔드 지원: vLLM, llama.cpp(GGML/GGUF), TensorRT-LLM, CTranslate2 등 다양한 추론 백엔드를 통합하여, 단일 플랫폼에서 LLM뿐만 아니라 이미지 생성이나 음성 인식 모델까지 관리한다.
- OpenAI 호환 API: 배포된 모델은 OpenAI API 규격과 완벽하게 호환되는 RESTful API 엔드포인트를 생성한다. 이를 통해 기존 LangChain, LlamaIndex, Dify 등 서드파티 애플리케이션의 코드 변경 없이 즉시 연동할 수 있다.
- 클러스터링 및 분산 배포: 로컬 단일 노드 실행뿐만 아니라 스케일 아웃이 필요한 프로덕션 환경을 위해 슈퍼바이저(Supervisor)와 워커(Worker) 구조의 분산 클러스터링을 기본적으로 지원한다. 노트북 환경부터 하이엔드 GPU 서버 클러스터까지 유연하게 대응한다.
- 하드웨어 가속: NVIDIA GPU, AMD GPU, Apple Metal(MPS) 및 CPU 전용 환경 등 다양한 하드웨어 백엔드를 자동으로 식별하여 최적화된 가속을 수행한다.
주요 오픈 소스 LLM 추론 프레임워크 비교 Xinference의 포지셔닝을 명확히 하기 위해 클라우드 네이티브 및 로컬 AI 생태계에서 주로 사용되는 다른 추론 엔진(Ollama, vLLM)과의 비교 데이터는 다음과 같다.
| 추론 프레임워크 | 주 사용 목적 및 설계 철학 | 주요 지원 백엔드/엔진 | 클러스터링 및 분산 배포 지원 | 모델 지원 범위 |
|---|---|---|---|---|
| Xinference | 다양한 AI 모델의 통합 관리 및 엔터프라이즈급 분산 추론 | vLLM, llama.cpp, TensorRT-LLM 등 다수 | 내장된 기능으로 완벽히 지원 (스케일 아웃 용이) | LLM, 임베딩, 오디오, 비전 등 멀티모달 포괄 |
| Ollama | 로컬 환경에서의 빠르고 간편한 LLM 실행 (주로 데스크톱 타깃) | llama.cpp (GGUF 포맷 중심) | 미지원 (단일 머신 로컬 환경에 최적화) | 주로 텍스트 기반 LLM |
| vLLM | PagedAttention 알고리즘을 활용한 대규모 LLM의 처리량(Throughput) 극대화 | 자체 vLLM 엔진 (PyTorch 기반) | 제한적 (Ray 기반 분산 추론 가능하나 인프라 설정 복잡) | 텍스트 기반 LLM 중심 (최근 비전 일부 추가) |
출처
- Xorbits. “Xinference Official Documentation: Powerful and versatile model inference network”. inference.readthedocs.io.
- LangChain. “Xinference - LangChain Documentation”. python.langchain.com. (API integration reference).
- LlamaIndex. “Xinference - LlamaIndex Documentation”. docs.llamaindex.ai. (LLM and Embeddings provider reference).