본문 바로가기

반응형

Data Science

(4)
KNN,Naive Bayes, Laplacian Correction 연습 문제 모음 K-NN 분류 연습 문제다음과 같은 데이터 세트가 있다고 가정합니다. 새로운 데이터 포인트 (5, 5)를 분류하기 위해 K-NN 알고리즘을 사용합니다. K=3일 때, 새로운 데이터 포인트의 클래스를 예측하세요. IndexXYClass222B333B466A577B688D (5,5)와 가장 가까운 점 세 개는 (3,3,B),(6,6,A),(7,7,B)이다. 정답 : (5,5) 예측 클래스 :B Naive Bayes 1. ( 라플라스 보정이 필요 없는 경우)고 객웹사이트 방문 여부이메일 클릭 여부장바구니 추가 여부이전 구매 여부구매고객 1OXOX구매고객 2XOXO미구매고객 3XOOX구매고객 4OXXO미구매고객 5XOXX구매고객 6OXOO미구매고객 7XOOO구매고객 8XXOX미구매고객 9OOXO구매고객 10XX..
선형회귀를 이용한 예측과 그 응용 [본글은 고려대학교 정보대학 유용재 교수님 COSE 471 데이터과학 수강중 중간고사 정리를 위해 작성하는 글임을 밝힙니다.] 상관 계수와 상관분석의 기초 Pearson Correlation Coefficient 두 변수 사이에 존재하는 선형적인 상관관계를 수치로 나타낸 것 크기는 -1 에서 1 사이. 0일 경우 상관관계가 없음 주의 사항 선형적인 상관관계만을 드러낸다 큰 상관 계수가 인과관계를 보장하는 것은 아니다 상관 계수와 기울기를 혼동 해서는 안된다. Spearman Correlation Coefficient 값이 아닌 순위 기반으로 상관계수를 도출함 Kendall tau Correlation Coefficient 값이 아닌 순위 기반으로 상관계수를 도출한다는 점은 동일함 ((concordant ..
공공 데이터 품질 관리와 오류율 [본글은 고려대학교 정보대학 유용재 교수님 COSE 471 데이터과학 수강중 중간고사 정리를 위해 작성하는 글임을 밝힙니다.] 데이터 품질 지표 DQI 데이터 품질은 DQI(Data Quality Index) 지표를 통해서 알 수 있다. 일관성 데이터 품질 오류율 중 표준 오류율과 직결됨 개체의 속성이 표준을 준수하고 있으며 중복 되지 않는가? 완전성 데이터 품질 오류율 중 구조 오류율과 직결됨 데이터 베이스 구축에 있어 논리적 설계와 물리적 구조가 올바르게 구축되었는가? 정확성 데이터 품질 오류율 중 값 오류율과 직결됨 데이터가 유효한 범위 및 형식으로 구성되어 있는가? 준비성 보안성 적시성 유용성 데이터 품질 오류율 산정 품질 오류율(%) = 0.7 x E값 + 0.2 x E표준 + 0.1 x E구조..
OpenApi와 공공데이터에 대한 이해 [본글은 고려대학교 정보대학 유용재 교수님 COSE 471 데이터과학 수강중 중간고사 정리를 위해 작성하는 글임을 밝힙니다.] 공공데이터 공공기관이 생성 또는 취득하여 관리하는 데이터 대표적인 유형으로는 DB, 전자화된 파일이 있음. 기계 판독이 가능한 형태로 정비하고자 노력을 해야한다. Open Data 5 star World Wide Web의 창시자인 Time Berners-Lee 가 주장함. 오픈데이터를 5가지의 단계로 분류를 함 1. 특정한 SW에서 읽기만 가능. 자유로운 수정 및 변환이 불가 기계 판독 기준에서 미충족 포맷에 속함 ex) PDF 2. 특정 sw에서 읽기,수정, 변환이 가능 기계 판독 기준에서 미충족 포맷에 속함 ex) HWP,XLS,JPG,PNG,MP3 3. 적어도 하나의 비독점..

반응형