[신뢰할 수 있는 데이터 1편] 데이터 거버넌스 — 전체 지형과 왜 필요한가

데이터 관리 전체 지형

데이터 거버넌스는 데이터 관리의 한 영역이다. 먼저 전체 지도를 파악한다.

데이터 관리 (Data Management)
│
├── 데이터 거버넌스 (Data Governance)     ← 이 글
│   정책·표준·역할을 정의하는 "규칙 레이어"
│
├── 데이터 품질 (Data Quality)            ← 2편
│   데이터가 얼마나 믿을 수 있는지 측정·관리
│
├── 데이터 카탈로그 & 계보 (Catalog/Lineage) ← 3편
│   데이터가 어디 있고 어디서 왔는지 추적
│
├── 데이터 아키텍처 (Data Architecture)
│   저장소 설계, 파이프라인 구조
│
├── 데이터 보안 (Data Security)
│   접근 제어, 마스킹, 암호화
│
└── 마스터 데이터 관리 (MDM)
    고객·상품 등 핵심 데이터 단일화

이 중 거버넌스는 나머지 모든 영역의 기반이다.
”어떻게 해야 하는가”를 정의하지 않으면 품질도, 보안도, 카탈로그도 방향이 없다.


데이터 거버넌스란?

“데이터를 어떻게 수집·저장·사용·폐기할지에 대한 정책, 표준, 책임을 정의하는 체계”

코드로 비유하면 컨트리뷰션 가이드 + 코드 리뷰 규칙에 해당한다.
코드 자체가 아니라, 코드를 어떻게 다뤄야 하는지를 규정하는 것.

거버넌스 없이                      거버넌스 있이
─────────────────                  ─────────────────
"매출"의 정의가 팀마다 다름   →    단일 정의: 결제 완료 기준 매출
누가 데이터를 수정했는지 모름 →    변경 이력과 승인자 기록
민감 데이터 접근 통제 없음    →    역할별 접근 권한 정책

왜 필요한가? — 문제부터

현장에서 겪는 증상

"분석가 A의 매출과 분석가 B의 매출이 다르다" ← 정의 불일치
"이 컬럼이 뭘 의미하는지 아무도 모른다"       ← 문서 부재
"고객 데이터를 누가 외부에 전달했는지 모른다" ← 접근 통제 부재
"3개월 전 데이터가 갑자기 바뀌어 있다"        ← 변경 관리 부재

이 증상들은 데이터가 많아질수록, 팀이 커질수록 심해진다.

거버넌스가 해결하는 것

문제                          해결책
────────────────────────────────────────────────────
정의 불일치          →  비즈니스 용어 사전 (Business Glossary)
문서 부재            →  데이터 사전 (Data Dictionary)
접근 통제 부재       →  역할 기반 접근 제어 (RBAC) 정책
변경 관리 부재       →  데이터 변경 감사 로그 (Audit Log)
책임 소재 불명확     →  데이터 오너십 (Data Ownership) 정의

거버넌스의 3가지 구성 요소

1. 역할 (People)

Data Owner
  - 해당 데이터 도메인의 비즈니스 책임자
  - "이 데이터가 무엇을 의미하는가"를 최종 결정
  예) 마케팅 팀장 → 캠페인 데이터 오너

Data Steward
  - 데이터 품질·표준의 실무 담당자
  - 정의서 작성, 품질 이슈 수집·처리
  예) 데이터 분석가

Data Engineer
  - 파이프라인·저장소 기술 구현 담당
  - 거버넌스 정책을 시스템으로 구현
  예) dbt 모델에 접근 제어 적용

2. 정책 (Policy)

정책 유형내용 예시
접근 정책PII 데이터는 Data Steward 승인 후 접근
보존 정책로그 데이터는 90일 후 자동 삭제
품질 정책Null 허용률 5% 초과 시 파이프라인 알림
변경 정책스키마 변경은 영향도 분석 후 승인

3. 프로세스 (Process)

데이터 요청 → 영향도 검토 → 승인 → 구현 → 감사 로그 기록

거버넌스 성숙도 모델

조직의 현재 수준을 파악하고 다음 단계를 목표로 삼는다.

Level 1 — 임시 (Ad-hoc)
  문서 없음, 담당자 없음, 정책 없음
  "아는 사람만 아는" 상태

Level 2 — 반응적 (Reactive)
  문제가 생기면 그때그때 대응
  비즈니스 용어 사전 일부 존재

Level 3 — 정의됨 (Defined)
  핵심 도메인에 데이터 오너 지정
  품질 기준과 접근 정책 문서화

Level 4 — 관리됨 (Managed)
  품질 지표 자동 모니터링
  카탈로그·계보 도구 운영

Level 5 — 최적화 (Optimized)
  데이터 거버넌스가 제품 개발 흐름에 내재화
  셀프서비스 데이터 접근 가능

대부분의 조직은 Level 1~2에 있다. Level 3이 실질적인 첫 번째 목표다.


이 시리즈에서 다루는 것

1편 (이 글)  데이터 거버넌스 전체 지형과 필요성
     ↓
2편          [[data-quality-measurement|데이터 품질 — 측정 방법과 품질 정의서]]
     ↓
3편          [[data-catalog-lineage|데이터 카탈로그와 계보 — 실무 도구]]