공공 데이터 품질 관리와 오류율

[본글은 고려대학교 정보대학 유용재 교수님 COSE 471 데이터과학 수강중 중간고사 정리를 위해 작성하는 글임을 밝힙니다.]

데이터 품질 지표 DQI

데이터 품질은 DQI(Data Quality Index) 지표를 통해서 알 수 있다.

일관성
- 데이터 품질 오류율 중 표준 오류율과 직결됨
- 개체의 속성이 표준을 준수하고 있으며 중복 되지 않는가?
완전성
- 데이터 품질 오류율 중 구조 오류율과 직결됨
- 데이터 베이스 구축에 있어 논리적 설계와 물리적 구조가 올바르게 구축되었는가?
정확성
- 데이터 품질 오류율 중 값 오류율과 직결됨
- 데이터가 유효한 범위 및 형식으로 구성되어 있는가?
준비성
보안성
적시성
유용성

데이터 품질 오류율 산정

품질 오류율(%) = 0.7 x E값 + 0.2 x E표준 + 0.1 x E구조

값 오류율

0.7의 가중치를 가짐.
전체 데이터 수 대비 오류 데이터 건수 비율

표준 오류율

0.2의 가중치를 가짐
진단 항목 별 오류율의 산술 평균
A 오류율이 4% B 오류율이 6% -> 표준 오류율은 5%

구조 오류율

0.1의 가중치를 가짐
표준 오류율과 동일한 방법으로 계산함.

이상치와 결측치에 대한 대응

Interquartile Range : Q3-Q1

제1사분위수 (Q1): 데이터를 작은 값에서 큰 값 순으로 정렬했을 때 하위 25%의 데이터가 끝나는 지점
제3사분위수 (Q3): 데이터를 작은 값에서 큰 값 순으로 정렬했을 때 상위 25%의 데이터가 시작하는 지점
Box and Whisker 도식을 통해서 한 눈에 파악할 수 있음

이상치 구분

Tukey's Fences : Q3과 차이가 1.5 IQR 초과할 만큼 큰 값 또는 Q1과 차이가 1.5IQR을 초과할 만큼 작은 값을 이상치로 간주
Carling's Modification: Median과 차이가 2.3 IQR을 초과하는 값은 이상치로 간주
3-sigma Rule: 정규분포 하에서 99.7% 데이터는 평균에서 ±3σ(표준편차) 사이에 존재함. 이 밖에 존재하는 데이터는 모두 이상치로 간주

결측치 구분

Missing at Completely Random(MCAR): 결측치가 특정 변수와 관계 없이 무작위로 발생

Index	Age	Sex	Income
Index	Age	Sex	Income	1	25	M	50000
2	34	F	Missing
3	Missing	F	62000
4	45	M	58000

아래 표에서 Missing 하는 값은 어떠한 규칙과 상관 없이 나타났다.

Missing at Random : 다른 변수와 연관되어 결측치가 발생한 경우

Index	Age	Sex	Income
Index	Age	Sex	Income	1	25	M	50000
2	34	F	Missing
3	45	F	Missing
4	45	M	58000

Sex가 female인 사람들은 Income이 missing 함을 알 수 있다.

Missing Not at Random : 변수 스스로와 연관되어 결측치가 발생한 경우

Index	Age	Sex	Income
Index	Age	Sex	Income	1	25	M	50000
2	34	F	Missing
3	45	F	62000
4	50	M	Missing

Income이 65000 이상인 사람은 Income 을 공개하지 않는다고 가정하자. Income 변수와 연관되어 결측치가 발생하여 Missing not a random 임을 알 수 있다.

삭제를 이용한 결측치 처리

Column Drop : 결측치가 일정 비율 이상인 열을 제거
Listwise Deletion : 결측치가 하나라도 존재하는 행을 제거
Pairwise Deletion : 분석 모델에 투입되는 열들에 대하여 결측치가 하나라도 존재하는 행을 제거

결측치 대체

Euclidean 을 통해 결측치를 제외한 다른 data를 통해 거리를 계산한다.

가중치를 고려하지 않는다면 산술평균으로, 고려한다면 가중평균으로 결측치를 대체한다.

Shapefile과 지리적 시각화

shp : 기하학적 공간 자료
dbf : 속성 정보가 담긴 데이터베이스
shx : 공간 자료와 속성을 잇는 색인

import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt

gdf=gpd.read_file('FILENAME.shp',encoding='cp949')

geopandas에서 제공하는 GeoDataFrame은 pandas의 Dataframe과 유사하다.
area: 다각형의 면적을 반환
length: 다각형의 둘레를 반환
bounds : 다각형이 가지는 x,y 좌표의 최대-최소를 반환
boundary : 외부 경계를 LINESTRING 형태로 반환
centroid: 다각형이 가지는 무게중심을 반환
is_valid: 다각형이 유효하게 정의되어 있는지 반

주요 좌표계의 종류

지리 좌표계
- 지구를 3차원 타원체로 간주해 대상의 위치를 나타내는 좌표계
- 위도 및 경도를 이용
- 도분초 의 DBS, 소수 형태의 Degree로 구분
평면 직각 좌표계
- 경위도를 평면 위에 투영해 대상의 위치를 나타내는 좌표계
- TM: 중부 동부 서부 동해 네가지 투영 원점이 가능
- UTM-K 동경 127.5 북위 38 위치를 원점으로 삼음

EPSG

'Data Science' 카테고리의 다른 글

KNN,Naive Bayes, Laplacian Correction 연습 문제 모음 (1)	2024.06.09
선형회귀를 이용한 예측과 그 응용 (0)	2024.04.18
OpenApi와 공공데이터에 대한 이해 (0)	2024.04.17

탱탱구리 개발일지

공공 데이터 품질 관리와 오류율

데이터 품질 지표 DQI

데이터 품질 오류율 산정

이상치와 결측치에 대한 대응

이상치 구분

삭제를 이용한 결측치 처리

결측치 대체

Shapefile과 지리적 시각화

주요 좌표계의 종류

EPSG

'Data Science' 카테고리의 다른 글

티스토리툴바

공공 데이터 품질 관리와 오류율

데이터 품질 지표 DQI

데이터 품질 오류율 산정

이상치와 결측치에 대한 대응

이상치 구분

삭제를 이용한 결측치 처리

결측치 대체

Shapefile과 지리적 시각화

주요 좌표계의 종류

EPSG

'Data Science' 카테고리의 다른 글

'Data Science' Related Articles

티스토리툴바