[신뢰할 수 있는 데이터 1편] 데이터 거버넌스 — 전체 지형과 왜 필요한가
데이터 관리 전체 지형
데이터 거버넌스는 데이터 관리의 한 영역이다. 먼저 전체 지도를 파악한다.
데이터 관리 (Data Management)
│
├── 데이터 거버넌스 (Data Governance) ← 이 글
│ 정책·표준·역할을 정의하는 "규칙 레이어"
│
├── 데이터 품질 (Data Quality) ← 2편
│ 데이터가 얼마나 믿을 수 있는지 측정·관리
│
├── 데이터 카탈로그 & 계보 (Catalog/Lineage) ← 3편
│ 데이터가 어디 있고 어디서 왔는지 추적
│
├── 데이터 아키텍처 (Data Architecture)
│ 저장소 설계, 파이프라인 구조
│
├── 데이터 보안 (Data Security)
│ 접근 제어, 마스킹, 암호화
│
└── 마스터 데이터 관리 (MDM)
고객·상품 등 핵심 데이터 단일화
이 중 거버넌스는 나머지 모든 영역의 기반이다.
”어떻게 해야 하는가”를 정의하지 않으면 품질도, 보안도, 카탈로그도 방향이 없다.
데이터 거버넌스란?
“데이터를 어떻게 수집·저장·사용·폐기할지에 대한 정책, 표준, 책임을 정의하는 체계”
코드로 비유하면 컨트리뷰션 가이드 + 코드 리뷰 규칙에 해당한다.
코드 자체가 아니라, 코드를 어떻게 다뤄야 하는지를 규정하는 것.
거버넌스 없이 거버넌스 있이
───────────────── ─────────────────
"매출"의 정의가 팀마다 다름 → 단일 정의: 결제 완료 기준 매출
누가 데이터를 수정했는지 모름 → 변경 이력과 승인자 기록
민감 데이터 접근 통제 없음 → 역할별 접근 권한 정책
왜 필요한가? — 문제부터
현장에서 겪는 증상
"분석가 A의 매출과 분석가 B의 매출이 다르다" ← 정의 불일치
"이 컬럼이 뭘 의미하는지 아무도 모른다" ← 문서 부재
"고객 데이터를 누가 외부에 전달했는지 모른다" ← 접근 통제 부재
"3개월 전 데이터가 갑자기 바뀌어 있다" ← 변경 관리 부재
이 증상들은 데이터가 많아질수록, 팀이 커질수록 심해진다.
거버넌스가 해결하는 것
문제 해결책
────────────────────────────────────────────────────
정의 불일치 → 비즈니스 용어 사전 (Business Glossary)
문서 부재 → 데이터 사전 (Data Dictionary)
접근 통제 부재 → 역할 기반 접근 제어 (RBAC) 정책
변경 관리 부재 → 데이터 변경 감사 로그 (Audit Log)
책임 소재 불명확 → 데이터 오너십 (Data Ownership) 정의
거버넌스의 3가지 구성 요소
1. 역할 (People)
Data Owner
- 해당 데이터 도메인의 비즈니스 책임자
- "이 데이터가 무엇을 의미하는가"를 최종 결정
예) 마케팅 팀장 → 캠페인 데이터 오너
Data Steward
- 데이터 품질·표준의 실무 담당자
- 정의서 작성, 품질 이슈 수집·처리
예) 데이터 분석가
Data Engineer
- 파이프라인·저장소 기술 구현 담당
- 거버넌스 정책을 시스템으로 구현
예) dbt 모델에 접근 제어 적용
2. 정책 (Policy)
| 정책 유형 | 내용 예시 |
|---|---|
| 접근 정책 | PII 데이터는 Data Steward 승인 후 접근 |
| 보존 정책 | 로그 데이터는 90일 후 자동 삭제 |
| 품질 정책 | Null 허용률 5% 초과 시 파이프라인 알림 |
| 변경 정책 | 스키마 변경은 영향도 분석 후 승인 |
3. 프로세스 (Process)
데이터 요청 → 영향도 검토 → 승인 → 구현 → 감사 로그 기록
거버넌스 성숙도 모델
조직의 현재 수준을 파악하고 다음 단계를 목표로 삼는다.
Level 1 — 임시 (Ad-hoc)
문서 없음, 담당자 없음, 정책 없음
"아는 사람만 아는" 상태
Level 2 — 반응적 (Reactive)
문제가 생기면 그때그때 대응
비즈니스 용어 사전 일부 존재
Level 3 — 정의됨 (Defined)
핵심 도메인에 데이터 오너 지정
품질 기준과 접근 정책 문서화
Level 4 — 관리됨 (Managed)
품질 지표 자동 모니터링
카탈로그·계보 도구 운영
Level 5 — 최적화 (Optimized)
데이터 거버넌스가 제품 개발 흐름에 내재화
셀프서비스 데이터 접근 가능
대부분의 조직은 Level 1~2에 있다. Level 3이 실질적인 첫 번째 목표다.
이 시리즈에서 다루는 것
1편 (이 글) 데이터 거버넌스 전체 지형과 필요성
↓
2편 [[data-quality-measurement|데이터 품질 — 측정 방법과 품질 정의서]]
↓
3편 [[data-catalog-lineage|데이터 카탈로그와 계보 — 실무 도구]]