데이터 버전 관리
데이터 버전 관리(Data Version Control, DVC)는 기계 학습(Machine Learning, ML) 프로젝트에 특화된 오픈 소스 버전 관리 시스템이다. 소프트웨어 공학의 표준 도구인 Git의철학과 구조를 차용하여, 코드뿐만 아니라 대용량 데이터셋, 기계 학습 모델, 실험 파이프라인의 이력을 체계적으로 추적하고 관리한다.
-
핵심 개념 및 작동 원리 Git은 텍스트 기반의 소스 코드를 관리하는 데 최적화되어 있으나, 기계 학습에 필수적인 수백 기가바이트(GB) 규모의 이미지, 오디오 파일, 혹은 신경망 모델 가중치(Weights) 파일 등 대용량 바이너리 파일을 직접 관리하는 데 구조적 한계와 성능 저하를 노출한다. DVC는 이 문제를 해결하기 위해 데이터 층과 코드 층을 분리한다. 실제 대용량 데이터와 모델 파일은 Amazon S3, Google Cloud Storage, Azure Blob Storage 또는 로컬 NAS와 같은 외부 스토리지(Remote Storage)에 저장한다. DVC는 이 원본 파일의 해시(Hash) 값과 경로 정보만을 담은 가벼운 메타데이터 텍스트 파일(
.dvc파일)을 생성하며, 개발자는 이.dvc파일만을 Git 리포지토리에 커밋(Commit)하여 코드와 데이터의 버전을 동기화한다. -
데이터 및 코드 버전 관리 시스템 비교 기존 소프트웨어 개발 영역과 기계 학습 영역에서 사용되는 주요 버전 관리 도구 간의 기술적 특성을 비교한 데이터는 다음과 같다.
| 비교 항목 | Git | Git LFS (Large File Storage) | DVC (Data Version Control) |
|---|---|---|---|
| 주요 목적 | 소스 코드 이력 추적 및 관리 | Git의 대용량 바이너리 파일 처리 성능 보완 | ML 데이터셋, 기계 학습 모델, 파이프라인 버전 통합 관리 |
| 스토리지 의존성 | 호스트 Git 리포지토리 종속 | 별도의 전용 LFS 스토리지 서버 요구 | AWS S3, GCS, SSH, HDFS 등 범용 클라우드 및 온프레미스 스토리지 연동 가능 |
| 구조적 작동 방식 | 파일의 전체 스냅샷 및 델타 압축 저장 | 특정 확장자를 텍스트 포인터로 대체하고 원본은 LFS 서버에 저장 | 원본 데이터를 분리 저장하고 모델링 정보를 담은 .dvc 메타데이터 파일을 Git으로 관리 |
| ML/엔지니어링 기능 | 파이프라인, 데이터 종속성 기능 없음 | 단순 대용량 데이터 저장 및 가져오기에 국한됨 | DAG(방향성 비순환 그래프) 기반 파이프라인 설정 및 조건부 실행 지원 |
| 재현성 (Reproducibility) | 코드 환경 및 버전에 국한 | 특정 시점의 대용량 파일 복원에 한정 | 코드, 파라미터(Parameters), 데이터의 정확한 결합 상태 추적 및 재현 보장 |
- 주요 기능 및 실무적 효용
- 완벽한 재현성(Reproducibility) 확보: MLOps(기계 학습 운영) 환경에서 DVC는 코드베이스와 특정 시점의 데이터 셋을 정확히 일치시킨다. 팀 내 다른 데이터 과학자가 과거 실험 상태로 체크아웃(Checkout)하면, 당시 사용된 코드와 데이터가 오차 없이 복원된다.
- 파이프라인 추적 및 최적화: DVC는 데이터 전처리, 특징 추출(Feature extraction), 모델 학습, 평가로 이어지는 단계를
dvc.yaml파일에 통제된 DAG 형태로 정의한다. 코드나 데이터의 일부가 변경되어 파이프라인을 재실행할 때, DVC는 변경사항의 영향을 받는 단계만 계산하여 선택적으로 처리하므로 컴퓨팅 자원과 시간 낭비를 최소화한다.
출처 및 참고문헌(Sources)
- Iterative. “Data Version Control - Documentation.” Retrieved from https://dvc.org/doc
- Treveil, M., et al. (2020). Introducing MLOps: How to Scale Machine Learning in the Enterprise. O’Reilly Media.
- Gift, N., & Deza, A. (2021). Practical MLOps. O’Reilly Media.