데이터 리니지
데이터 리니지(Data Lineage)는 직역하면 ‘데이터의 혈통’ 또는 ‘데이터의 족보’라는 뜻으로, 데이터가 어디서 처음 생성되어, 어떤 가공 및 변환 과정을 거쳐, 최종적으로 어디에 저장되고 사용되는지 그 전체 흐름을 추적하고 기록하는 개념입니다.
쉽게 비유하자면 ‘택배 배송 조회’나 ‘농산물 이력 추적제’와 비슷합니다. 내가 보고 있는 데이터가 어떤 경로를 거쳐 내 화면(대시보드 등)까지 왔는지 그 생애주기(Lifecycle)를 보여주는 지도라고 할 수 있습니다.
데이터 리니지를 이해하기 위해 알아두어야 할 핵심 요소와 왜 중요한지를 정리해 드립니다.
1. 데이터 리니지가 추적하는 3단계 흐름
- 기원 (Source): 데이터가 최초로 발생한 곳은 어디인가? (예: 고객 가입 웹사이트, 결제 시스템, 외부 API 등)
- 가공 및 변환 (Transformation/ETL): 데이터가 이동하면서 어떤 연산, 필터링, 결합(Join) 등의 과정을 거쳤는가?
- 도착지 (Target): 가공된 데이터가 최종적으로 어디에 저장되고, 어떤 리포트나 대시보드에서 쓰이고 있는가? (예: 데이터 웨어하우스, BI 툴 등)
2. 데이터 리니지가 왜 중요한가? (도입 목적)
① 데이터 신뢰성 확보 (Data Trust) 경영진이나 실무자가 대시보드의 매출 데이터를 볼 때, “이 숫자 정확한 거 맞아? 믿을 수 있어?”라는 의문이 생길 수 있습니다. 리니지를 통해 데이터의 출처와 가공 공식을 확인하면 데이터에 대한 신뢰를 가질 수 있습니다.
② 문제 원인 분석 (Root Cause Analysis) 최종 리포트에서 데이터 오류나 누락이 발견되었을 때, 과거에는 수많은 코드와 DB를 일일이 뒤져야 했습니다. 리니지가 구축되어 있으면, 오류가 발생한 데이터의 경로를 역추적(거슬러 올라감)하여 어느 파이프라인에서 문제가 생겼는지 빠르게 파악하고 고칠 수 있습니다.
③ 영향도 분석 (Impact Analysis) 특정 데이터베이스의 테이블 구조를 변경하거나 삭제해야 할 때, “이걸 바꾸면 어떤 부서의 어떤 리포트가 망가질까?”를 미리 파악해야 합니다. 리니지를 통해 순방향(앞으로 흘러갈 방향)으로 영향을 받는 시스템을 미리 확인하여 사고를 예방할 수 있습니다.
④ 규제 준수 및 보안 (Compliance) 개인정보보호법(GDPR 등)이나 금융 규제를 준수하려면 주민등록번호, 연락처 같은 민감 정보가 사내 시스템 어디에 저장되어 있고 어디로 흘러가는지 정확히 알아야 합니다. 리니지는 이러한 민감 데이터의 이동 경로를 증명하는 훌륭한 감사(Audit) 자료가 됩니다.
3. 예시로 보는 데이터 리니지
- Source: 쇼핑앱 결제 DB (A테이블)
- Process: 매일 밤 12시에 ‘취소 건수’를 제외하고 ‘순수익’을 계산하는 파이썬 스크립트 실행 (B과정)
- Target: 경영진이 아침에 보는 태블로(Tableau) 일간 매출 대시보드 (C화면)
▶ 데이터 리니지: [결제 DB(A)] → [수익 계산 파이썬(B)] → [Tableau 대시보드(C)]
만약 아침에 대시보드(C) 숫자가 이상하다면, 리니지 지도를 보고 B과정이나 A테이블에 문제가 없는지 바로 점검하러 갈 수 있습니다.
요약
빅데이터 시대가 되면서 기업 내에 수천, 수만 개의 데이터 테이블이 얽히고설켜 ‘데이터 스파게티’ 상태가 되는 경우가 많습니다. 데이터 리니지는 이 복잡한 실타래를 풀어, 데이터의 흐름을 한눈에 파악하게 해주는 ‘내비게이션’이자 핵심적인 데이터 거버넌스(관리 체계) 기술입니다.