본문 바로가기

Data Science

공공 데이터 품질 관리와 오류율

반응형

[본글은 고려대학교 정보대학 유용재 교수님  COSE 471 데이터과학 수강중 중간고사 정리를 위해 작성하는 글임을 밝힙니다.]

 

데이터 품질 지표 DQI

  • 데이터 품질은 DQI(Data Quality Index) 지표를 통해서 알 수 있다.
  1. 일관성
    • 데이터 품질 오류율 중 표준 오류율과 직결됨
    • 개체의 속성이 표준을 준수하고 있으며 중복 되지 않는가?
  2. 완전성
    • 데이터 품질 오류율 중 구조 오류율과 직결됨
    • 데이터 베이스 구축에 있어 논리적 설계와 물리적 구조가 올바르게 구축되었는가?
  3. 정확성
    • 데이터 품질 오류율 중 값 오류율과 직결됨
    • 데이터가 유효한 범위 및 형식으로 구성되어 있는가?
  4. 준비성
  5. 보안성
  6. 적시성
  7. 유용성

데이터 품질 오류율 산정

품질 오류율(%) = 0.7 x E값 + 0.2 x E표준 + 0.1 x E구조

 

값 오류율

  • 0.7의 가중치를 가짐. 
  • 전체 데이터 수 대비 오류 데이터 건수 비율

표준 오류율

  • 0.2의 가중치를 가짐
  • 진단 항목 별 오류율의 산술 평균
  • A 오류율이 4% B 오류율이 6% -> 표준 오류율은 5%

구조 오류율

  • 0.1의 가중치를 가짐
  • 표준 오류율과 동일한 방법으로 계산함.

 

 

이상치와 결측치에 대한 대응

Interquartile Range : Q3-Q1

  • 제1사분위수 (Q1): 데이터를 작은 값에서 큰 값 순으로 정렬했을 때 하위 25%의 데이터가 끝나는 지점
  • 제3사분위수 (Q3): 데이터를 작은 값에서 큰 값 순으로 정렬했을 때 상위 25%의 데이터가 시작하는 지점
  • Box and Whisker 도식을 통해서 한 눈에 파악할 수 있음

이상치 구분

  • Tukey's Fences : Q3과 차이가 1.5 IQR 초과할 만큼 큰 값 또는 Q1과 차이가 1.5IQR을 초과할 만큼 작은 값을 이상치로 간주 
  • Carling's Modification: Median과 차이가 2.3 IQR을 초과하는 값은 이상치로 간주
  • 3-sigma Rule: 정규분포 하에서 99.7% 데이터는 평균에서 ±3σ(표준편차) 사이에 존재함. 이 밖에 존재하는 데이터는 모두 이상치로 간주

결측치 구분

  • Missing at Completely Random(MCAR): 결측치가 특정 변수와 관계 없이 무작위로 발생
Index Age Sex Income
1 25 M 50000
2 34 F Missing
3 Missing F 62000
4 45 M 58000

 

 

아래 표에서 Missing 하는 값은 어떠한 규칙과 상관 없이 나타났다.

 

  • Missing at Random : 다른 변수와 연관되어 결측치가 발생한 경우
Index Age Sex Income
1 25 M 50000
2 34 F Missing
3 45 F Missing
4 45 M 58000

 

Sex가 female인 사람들은 Income이 missing 함을 알 수 있다.

  • Missing Not at Random : 변수 스스로와 연관되어 결측치가 발생한 경우
Index Age Sex Income
1 25 M 50000
2 34 F Missing
3 45 F 62000
4 50 M Missing

 

Income이 65000 이상인 사람은 Income 을 공개하지 않는다고 가정하자. Income 변수와 연관되어 결측치가 발생하여 Missing not a random 임을 알 수 있다.

 

삭제를 이용한 결측치 처리 

  • Column Drop : 결측치가 일정 비율 이상인 열을 제거
  • Listwise Deletion : 결측치가 하나라도 존재하는 행을 제거
  • Pairwise Deletion : 분석 모델에 투입되는 열들에 대하여 결측치가 하나라도 존재하는 행을 제거

결측치 대체

 

Euclidean 을 통해 결측치를 제외한 다른 data를 통해 거리를 계산한다.

 

가중치를 고려하지 않는다면 산술평균으로, 고려한다면 가중평균으로 결측치를 대체한다.

 


Shapefile과 지리적 시각화

  • shp : 기하학적 공간 자료
  • dbf : 속성 정보가 담긴 데이터베이스
  • shx : 공간 자료와 속성을 잇는 색인
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt

gdf=gpd.read_file('FILENAME.shp',encoding='cp949')
  • geopandas에서 제공하는 GeoDataFrame은 pandas의 Dataframe과 유사하다.
  • area: 다각형의 면적을 반환
  • length: 다각형의 둘레를 반환
  • bounds : 다각형이 가지는 x,y 좌표의 최대-최소를 반환
  • boundary : 외부 경계를 LINESTRING 형태로 반환
  • centroid: 다각형이 가지는 무게중심을 반환
  • is_valid: 다각형이 유효하게 정의되어 있는지 반

주요 좌표계의 종류

  • 지리 좌표계
    • 지구를 3차원 타원체로 간주해 대상의 위치를 나타내는 좌표계
    • 위도 및 경도를 이용
    • 도분초 의 DBS, 소수 형태의 Degree로 구분
  • 평면 직각 좌표계
    • 경위도를 평면 위에 투영해 대상의 위치를 나타내는 좌표계
    • TM: 중부 동부 서부 동해 네가지 투영 원점이 가능
    • UTM-K 동경 127.5 북위 38 위치를 원점으로 삼음

EPSG

 

 

반응형