[ Data Architecure Professional ]
3-2. 데이터 표준화 수립
3-2-2. 데이터 표준화 정의
1. 표준 단어(Word) 사전 정의
가. 표준 단어 사전
1) 표준 단어 관리 기준
* 표준성
정보시스템이나 일반적인 업무에 사용되는 단어 가운데 추출해야 하며, 너무 업무적인 용어의 사용을 최소화 하여 정보시스템의 특성에 부합하도록 함
* 일반성
일상적으로 사용하고 있는 사전적 의미의 단어와 의미상 크게 다르지 않아 일반인도 해당 단어의 의미를 이해할 수 있어야 함
* 대표성
동의어를 가질 수 있으며 표준 단어로 선언된 단어는 비슷한 의미의 동의어들을 대표할 수 있어야 함
2) 표준 단어 작성 형식
- 전사적으로 관리하고 있는 엔티티와 속성을 개별 단위로 추출하며 추출된 단어는 동음이의어와 이음동의어를 정비한 후 논리명(한글명)을 기준으로 물리명(영문명, 영문약어명), 유사 용어까지 함께 정리하여 관리
나. 표준 단어 정의
1) 현행 용어 수집
- 현행 용어를 통하여 단어를 분할하고 그에 해당하는 영문 약어명을 도출하려는 것임 목적이므로 일부 상용화된 애플리케이션 패키지처럼 한글명이 조재하지 않은 데이터 모델은 수집 대상에서 제외
3) 단어 정렬
- 도출해낸 모든 단어들은 한글명과 영문 약어명 모두 유일해야 함
4) 표준 단어 사전 정의
- 의미는 유사하나 각기 다른 표준으로 등록한 표준단어들은 유사어로, 표준으로 선택되지 않은 나머지 이음동의어들에 대해서는 금칙어로 등록하여 관리하고, 향후 적절한 표준 단어의 검색을 위해 관련 표준 용어를 같이 기술.
다. 표준 단어 정의 시 고려 사항
* 표준 단어의 단위는 최소 단위를 기준으로 하되 사용 빈도가 높은 단어의 조합 또는 단어의 조합이 하나의 고유한 의미를 가지는 경우 하나의 표준 단어로 정의하는 것이 유리할 수 있음
* 대부분의 DBMS는 테이블 물리명 및 칼럼 물리명의 첫 글자를 알파벳으로 시작하도록 제약
* 단어는 특히 동음이의어가 많으므로 사용 빈도가 높은 것을 표준 단어로, 낮은 것은 다른 단어와 조합하여 표준단어로 정의
* 접두어, 접미어와 같이 한 자리로 구성된 단어들은 가급적 표준에서 배제하는 대신 앞뒤에 나오는 단어와 조합하여 표준 단어로 정의
2. 표준 도메인(Domain) 사전 정의
- 표준 도메인 사전 정의는 업무 용도, 사용 빈도와 데이터의 물리적인 특성 등을 고려하여 도메인을 분류하고 도메인별 데이터 타입을 부여
가. 표준 도메인 사전
- 전사적으로 사용되고 있는 데이터 가운데 논리적, 노물리적으로 유사한 유형의 데이터를 그룹화하여 해당 그룹에 속하는 데이터의 유형과 길이를 정의한 것
1) 표준 도메인 관리 기준
* 표준성
표준 도메인은 전사 차원에서 공통적으로 사용되는 속성을 대상으로 정의
* 유일성
동일한 내용의 중복 도메인이 서로 다른 이름으로 선언되지 않도록 관리
2) 표준 도메인 작성 형식
- 전사적으로 관리하고 있는 모든 데이터 속성 혹은 대표 속성 가운데에 DBMS에 동일한 형태로 구현되는 속성들을 추출하여 그룹화
나. 표준 도메인 정의
- 정보시스템별로 혼재되어 사용되고 있는 칼럼의 칼럼명, 데이터 타입, 길이 등을 정리하여 표준 도메인을 정립
1) 현행 용어 정보 분석
* 동일한 정보시스템에 대한 데이터 모델에서 추출된 형행 용어들을 유일하게 추출. 유일한 용어를 추출할 때에는 한글명, 영문명, 데이터 타입 및 길이 모두 일치하는지를 확인
* 데이터 타입과 길이가 동일한 용어들을 검색하여 유사한 속성의 용어들을 그룹핑
* 용어명 중 끝 쪽 단어를 기준으로 유사한 속성의 용어들을 그룹핑
2) 표준 도메인 정의
- 그룹핑된 유사 속성 용어의 의미에 따라 표준 도메인 명을 정의하고 그에 따른 데이터 타입 및 길이를 정의
* 가급적이면 업무적으로 의미가 있는 도메인명을 부여
* 기존 데이터와의 호환성 및 범용성을 위해 그룹핑된 용어들에게 부여된 데이터 타입 길이 중 가장 큰 데이터 타입 길이를 표준으로 정함
다. 표준 도메인 정의 시 고려사항
* 현실적으로 어느 도메인에도 속하지 않는 칼럼이 있을 수 있으므로 모든 용어를 포괄하는 표준 도메인을 생성할 필요는 없음
* 표준 도메인에 정의할 데이터 형식을 어떻게 정의하고 각기 다른 DBMS에 어떻게 물리적으로 적용할 것인가에 대한 방안을 고려
* 표준 도메인을 도출하면서 동일한 용어로 판명된 현행 용어들을 별도로 기록하여 향후 동일한 데이터 표준 용어로 통일할 때 참고
3. 표준 코드(Code) 사전 정의
- 표준 코드 정의는 수집된 용어로부터 코드를 선별하여 현 코드의 코드 값 조사
- 정의된 표준 코드별로 오너십(Ownership)을 정의하여 향후 해당 코드에 대한 수정, 삭제에 대한 권한을 관리하도록 함
가. 표준 코드 사전
1) 표준 코드 관리 기준
* 재사용성
표준코드는 기업에서 자체적으로 정의하여 사용하는 것보다 표준화 기구나 정부, 공공 기관에서 정의한 코드를 재사용하는 것이 데이터에 대한 이해력을 높이고 코드 관리를 용이하게 하는 데 더 효과적임
* 일관성
코드는 업무 범위 내에서 가능한 한 유일하게 정의되어야 함
* 정보 분석성
가능한 범위의 데이터는 모두 코드화하여 관리
2) 표준 코드 작성 형식
- 전사적으로 사용하고 있는 코드를 추출하여 정의하고 부여된 코드와 동일한지를 확인하고 동일한 값을 가지는 코드에 대해서 통합 작업을 수행하여 단일화 작업을 수행
나. 표준 코드 정의
1) 현행 코드 수집
* 단독 코드 테이블
이런 형태로 관리하는 코드들은 대부분 코드 데이터가 필수적으로 가지고 있어야 할 코드 번호, 코드 값 외에 부가 정보들을 관리할 경우가 많음
* 통합 코드 테이블
통합 관리 테이블에서 관리하는 기본적인 내용으로는 코드 자체를 식별하기 위한 코드 유형 번호, 코드 명, 코드 구조, 코드 번호, 코드 값 등이 있고 기타 코드 관리 차원에서 필요한 정보들(생성 일자, 폐지 일자, 오너십, ...) 등이 있음
* 애플리케이션 정의
코드를 데이터베이스에 저장하여 관리하지 않고 애플리케이션에서 정의하여 관리하는 형태. 애플리케이션의 프로그램 소스를 확보하지 않고서는 코드 정보를 확보하기 어렵기 때문에 이러한 코드 정보의 확보는 사용자 인터페이스를 조회하거나 해당 코드 정보를 데이터로서 저장하는 코드성 칼럼의 데이터 값을 추출하는 간접적인 방법을 통해 수집.
- 코드는 해당 코드를 관리하는 테이블에서 코드 값을 누락하거나 애플리케이션에서 코드 값을 정의하는 이유 때문에 단어, 도메인, 용어와는 달리 수집 시 누락될 가능성 존재
* 코드 데이터 값 수집
코드를 관리하는 테이블, 통합 코드 테이블, 애플리케이션 사용자 인터페이스를 통하여 코드 정보를 수집
* 코드성 칼럼 파악
이 경우 해당 칼럼이 코드를 저장하는 칼럼인지 아니면 정보성 데이터에 대한 참조 데이터를 저장하는 칼럼인지 명확히 구분
* 수집된 코드에 대한 사용처 파악
식별한 코드성 칼럼별로 어떠한 코드를 저장하는지를 파악함으로써 누락된 코드를 확인. 코드의 누락은 코드성 칼럼에 저장된 코드 데이터 값과 수집된 코드 번호를 비교하고 검증함으로써 파악함. 이 과정을 통하여 코드 테이블 및 애플리케이션 사용자 인터페이스를 통하여 확보하지 못했던 코드 정보를 추가로 수집함.
2) 현행 코드 상세 분석
* 코드 값이 일치하는 동일한 코드 인스턴스를 가지는 코드를 찾은 뒤 해당 코드의 모든 코드 인스턴스를 확인하고 비교함으로써 통합 가능한 코드를 식별
* 분석해야 할 대상 코드가 너무 많을 경우에는 코드를 사용하는 업무 기능별로 코드를 분류한 후 분류된 단위로 코드를 분석
3) 표준 코드 정의
* 통합 대상이 없는 코드는 현행 코드 인스턴스를 그대로 유지하는 것이 일반적
* 통합 대상이 존재하고 통합 대상 코드의 코드 번호가 서로 상이할 경우 새로운 코드 번호를 부여함으로써 코드를 정의
다. 표준 코드 활용
- 향수 모든 정보시스템은 표준 코드를 사용해야 함
- 일부 업무에서 특정 코드의 모든 코드 값을 사용하지 않고 범위를 한정하여 일부 코드 값만 사용할 경우, 표준 코드로부터 파생된 코드를 정의하여 사용
- 이 경우 파생 코드에 정의된 코드 번호, 코드 값은 반드시 표준 코드에 정의되어 있어야 하며, 파생 코드에 코드 인스턴스를 추가해야 할 경우, 표준 코드에 먼저 정의하도록 함
라. 표준 코드 정의 시 고려사항
* 코드 값은 향후 확장성을 고려하여 정의하여야 하며, 여러 업무에서 사용할 수 있도록 통합된 코드로서의 일관성을 유지해야 함
* 시스템 운영 중에 코드 값이 변경되는 경우 해당 코드를 사용한 기존 데이터의 유지를 위해 기존 코드 값을 삭제하는 대신 사용 중지 상태로 관리하고 새로운 코드 값을 신규로 정의
* 표준 코드를 도출하면서 파악한 표준 코드-현행 코드 간 변환 매핑 정보를 별도로 기록하여 향후 신규 정보시스템으로의 데이터 이행 시 참고
4. 표준 용어 사전 정의
- 표준 용어 사전 정의는 단어, 도메인, 코드 표준이 정의되면 이를 바탕으로 표준 용어를 구성하고, 단어의 조합, 도메인 분류, 데이터 타입 길이, 코드 값 등을 기준으로 해서 표준 적용이 업무적으로나 IT적으로 무리가 없는지 검토
가. 표준 용어 사전
1) 표준 용어 관리 기준
* 표준성
용어의 표준화를 통해 용어 사용의 차이에 따라 발생되는 전사 차원의 혼란을 최소화 할 수 있어야 함
* 일반성
용어가 지나치게 업무 관점에서만 정의되어 일반적으로 이해하기 힘들거나 의미상에 혼란을 초래해서는 안됨
* 업무 지향성
용어는 기업의 업무 범위 내에서 약어를 사용하거나 내부에서 별도로 정의하여 사용할 수 있음. 단 지나친 약어의 사용은 업무에 대한 이해도를 떨어뜨릴 수 있으므로 주의
나. 표준 용어 정의
- 표준 용어는 정보시스템별로 사용하고 있는 모든 현행 용어를 수집하고 표준 단어 사전, 표준 도메인 사전, 표준 코드 사전 등을 참조하여 현행 용어에 대한 표준 용어를 도출.
1) 현행 용어에 대한 표준 단어 도출 및 표준 용어 정의
- 현행 용어로터 표준 용어의 도출은 단어 수준에서의 표준화를 통해 이루어짐
2) 표준 단어에 대한 도메인/코드 정의
- 표준 도메인을 도출하면서 별도 관리했던 정보를 가지고 표준 단어에 대한 도메인을 정의할 수 있음
- 표준 단어가 사용하는 표준 코드도 이와 유사한 방법으로 이용하여 정의
다. 표준 용어 정의 시 고려사항
* 표준 용어 도출 시 데이터 표준 원칙에서 정의한 한글명 및 영문명의 허용 길이를 넘지 않도록 해야함
* 만약 영문명의 허용 길이가 문제가 된다면 한글명을 변경하거나 한글명을 구성하는 표준 단어들 중 일부를 조합하여 하나의 표준 단어를 등록하여 영문명의 길이를 축약
* 생성된 표준 용어가 너무 길다면 두 개의 표준 용어를 복합하여 생각하는 방법 고려
'[STUDY] DAP' 카테고리의 다른 글
[DAP] Ⅱ. 데이터 표준화 - 3-2. 데이터 표준화 수립 - (3) 데이터 표준화 확정 (0) | 2020.07.06 |
---|---|
[DAP] Ⅱ. 데이터 표준화 - 3-2. 데이터 표준화 수립 - (1) 데이터 표준화 원칙 정의 (0) | 2020.07.02 |
[DAP] Ⅱ. 데이터 표준화 - 3-1. 데이터 표준화 개요 (0) | 2020.07.01 |
[DAP] Ⅱ. 데이터 요건 분석 - 2-4. 정보 요구사항 검증 (0) | 2020.06.30 |
[DAP] Ⅱ. 데이터 요건 분석 - 2-3. 정보 요구사항 분석 - (3) 정보 요구사항 확인 (0) | 2020.06.30 |