반응형
[본글은 고려대학교 정보대학 유용재 교수님 COSE 471 데이터과학 수강중 중간고사 정리를 위해 작성하는 글임을 밝힙니다.]
데이터 품질 지표 DQI
- 데이터 품질은 DQI(Data Quality Index) 지표를 통해서 알 수 있다.
- 일관성
- 데이터 품질 오류율 중 표준 오류율과 직결됨
- 개체의 속성이 표준을 준수하고 있으며 중복 되지 않는가?
- 완전성
- 데이터 품질 오류율 중 구조 오류율과 직결됨
- 데이터 베이스 구축에 있어 논리적 설계와 물리적 구조가 올바르게 구축되었는가?
- 정확성
- 데이터 품질 오류율 중 값 오류율과 직결됨
- 데이터가 유효한 범위 및 형식으로 구성되어 있는가?
- 준비성
- 보안성
- 적시성
- 유용성
데이터 품질 오류율 산정
품질 오류율(%) = 0.7 x E값 + 0.2 x E표준 + 0.1 x E구조
값 오류율
- 0.7의 가중치를 가짐.
- 전체 데이터 수 대비 오류 데이터 건수 비율
표준 오류율
- 0.2의 가중치를 가짐
- 진단 항목 별 오류율의 산술 평균
- A 오류율이 4% B 오류율이 6% -> 표준 오류율은 5%
구조 오류율
- 0.1의 가중치를 가짐
- 표준 오류율과 동일한 방법으로 계산함.
이상치와 결측치에 대한 대응
Interquartile Range : Q3-Q1
- 제1사분위수 (Q1): 데이터를 작은 값에서 큰 값 순으로 정렬했을 때 하위 25%의 데이터가 끝나는 지점
- 제3사분위수 (Q3): 데이터를 작은 값에서 큰 값 순으로 정렬했을 때 상위 25%의 데이터가 시작하는 지점
- Box and Whisker 도식을 통해서 한 눈에 파악할 수 있음
이상치 구분
- Tukey's Fences : Q3과 차이가 1.5 IQR 초과할 만큼 큰 값 또는 Q1과 차이가 1.5IQR을 초과할 만큼 작은 값을 이상치로 간주
- Carling's Modification: Median과 차이가 2.3 IQR을 초과하는 값은 이상치로 간주
- 3-sigma Rule: 정규분포 하에서 99.7% 데이터는 평균에서 ±3σ(표준편차) 사이에 존재함. 이 밖에 존재하는 데이터는 모두 이상치로 간주
결측치 구분
- Missing at Completely Random(MCAR): 결측치가 특정 변수와 관계 없이 무작위로 발생
Index | Age | Sex | Income |
1 | 25 | M | 50000 |
2 | 34 | F | Missing |
3 | Missing | F | 62000 |
4 | 45 | M | 58000 |
아래 표에서 Missing 하는 값은 어떠한 규칙과 상관 없이 나타났다.
- Missing at Random : 다른 변수와 연관되어 결측치가 발생한 경우
Index | Age | Sex | Income |
1 | 25 | M | 50000 |
2 | 34 | F | Missing |
3 | 45 | F | Missing |
4 | 45 | M | 58000 |
Sex가 female인 사람들은 Income이 missing 함을 알 수 있다.
- Missing Not at Random : 변수 스스로와 연관되어 결측치가 발생한 경우
Index | Age | Sex | Income |
1 | 25 | M | 50000 |
2 | 34 | F | Missing |
3 | 45 | F | 62000 |
4 | 50 | M | Missing |
Income이 65000 이상인 사람은 Income 을 공개하지 않는다고 가정하자. Income 변수와 연관되어 결측치가 발생하여 Missing not a random 임을 알 수 있다.
삭제를 이용한 결측치 처리
- Column Drop : 결측치가 일정 비율 이상인 열을 제거
- Listwise Deletion : 결측치가 하나라도 존재하는 행을 제거
- Pairwise Deletion : 분석 모델에 투입되는 열들에 대하여 결측치가 하나라도 존재하는 행을 제거
결측치 대체
Euclidean 을 통해 결측치를 제외한 다른 data를 통해 거리를 계산한다.
가중치를 고려하지 않는다면 산술평균으로, 고려한다면 가중평균으로 결측치를 대체한다.
Shapefile과 지리적 시각화
- shp : 기하학적 공간 자료
- dbf : 속성 정보가 담긴 데이터베이스
- shx : 공간 자료와 속성을 잇는 색인
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
gdf=gpd.read_file('FILENAME.shp',encoding='cp949')
- geopandas에서 제공하는 GeoDataFrame은 pandas의 Dataframe과 유사하다.
- area: 다각형의 면적을 반환
- length: 다각형의 둘레를 반환
- bounds : 다각형이 가지는 x,y 좌표의 최대-최소를 반환
- boundary : 외부 경계를 LINESTRING 형태로 반환
- centroid: 다각형이 가지는 무게중심을 반환
- is_valid: 다각형이 유효하게 정의되어 있는지 반
주요 좌표계의 종류
- 지리 좌표계
- 지구를 3차원 타원체로 간주해 대상의 위치를 나타내는 좌표계
- 위도 및 경도를 이용
- 도분초 의 DBS, 소수 형태의 Degree로 구분
- 평면 직각 좌표계
- 경위도를 평면 위에 투영해 대상의 위치를 나타내는 좌표계
- TM: 중부 동부 서부 동해 네가지 투영 원점이 가능
- UTM-K 동경 127.5 북위 38 위치를 원점으로 삼음
EPSG
반응형
'Data Science' 카테고리의 다른 글
KNN,Naive Bayes, Laplacian Correction 연습 문제 모음 (1) | 2024.06.09 |
---|---|
선형회귀를 이용한 예측과 그 응용 (0) | 2024.04.18 |
OpenApi와 공공데이터에 대한 이해 (0) | 2024.04.17 |