본문 바로가기

데이터 분석 (Data Analysis)

(9)
[데이터분석기사 실기] 예시문제 풀이 - 최근접 이웃 알고리즘(Knn) - 작업 2유형 1. 기본 전처리 과정입니다. ################################################################################ rm(list=ls()) library(dplyr) library(knitr) library(ggplot2) setwd(".../data") x.train % head(5) # 트레이닝 셋 x.train %>% dim() y.train %>% dim() # 테스트 셋 x.test %>% dim() # 학습할 데이터셋 병합 train % head(5) # 결측값 처리 train$환불금액[is.na(train$환불금액)== TRUE] = 0 x.test$환불금액[is.na(x.test$환불금액)== TRUE] = 0 # 범주형변수 fa..
[데이터분석기사 실기] 예시문제 풀이 - 랜덤포레스트(Random Forest) - 작업 2유형 rm(list=ls()) library(dplyr) library(knitr) library(ggplot2) setwd(".../data") x.train % head(5) # 트레이닝 셋 x.train %>% dim() y.train %>% dim() # 테스트 셋 x.test %>% dim() # 학습할 데이터셋 병합 train % head(5) # 결측값 처리 train$환불금액[is.na(train$환불금액)== TRUE] = 0 train$환불금액 %>% head() x.test$환불금액[is.na(x.test$환불금액)== TRUE] = 0 # 범주형변수 factor 처리 str(train) train$gender
[데이터정제] 범주형변수처리 - 원핫인코딩(One-Hot Encoding) 예제 library(dplyr) # One-Hot Encoding # 데이터 생성 set.seed(0614) data 머신러닝에서 자주 이용 library(caret) dummy
[데이터분석기사 실기] 예시문제 풀이 - 의사결정나무모형(Decision Tree) - 실기 작업 2유형 지난번 로지스틱회귀모형으로 예시문제 풀이 이후 다른 모형인 의사결정나무모형으로 문제를 풀어보았습니다. AUC 값 : 0.6369 ​ 분석 변경사항 1. Validation set 만든 이유? 문제에서 주어진 데이터 중 x.test(테스트셋) 값으로 모형 평가를 반영할 수 없음. 따라서 일반적으로 train, validation, test set 비율을 6:2:2 로 하기때문에 training set과 validation set의 비율이 3:1 이므로 0.25 만큼 validation set을 random으로 추출해서 모형 평가에 적용하였습니다. ​ 2. 실제 시험에서 1분이라는 제한시간은 어떻게? 최대한 코드를 간단하게 할것만 전처리(결측, 이상치, 데이터결합, summary(), str() 등등 함수로..
분류 모델(Logistic, LDA, QDA, KNN) 및 혼동행렬(Confusion Matrix)로 모델 평가 이번 공부 내용은 시간이 부족해서 책보고 따라하는 것으로 공부를 마쳤습니다. ​ 코드는 보고 따라할 수 있지만, 각 모델들에 대해 수학적인 이론과 어떻게 분류가 돌아가는지 파악하는데 많은 어려움이 있었음. 기존 라이브러리에 있는 쉬운 데이터로 사용해서 결과가 잘 나왔지만 실제 데이터를 분석하면서 책에서 나온대로 적용하는 것이 매우 어려웠음. 학부시절 기계학습 수업 들었을때 공부했던 내용을 다시 복습했습니다. ​ 데이터 설명 ​ 2001년 초부터 2005년 말까지 1,250일 동안 S&P 500 주가지수에 대한 수익률로 구성 각 날짜에 대해 이전 거래일(5일)에 대한 수익률(Lag1 ~ Lag5) 또한 Volume(전일 거래된 주식 수, 수십억 달러), Today(해당 날짜의 수익률), Direction(..
[데이터분석기사 실기] 주성분분석(PCA) - 실기 작업 1유형 주성분분석에 대해 이해가 어려워서 어떤 수학적인 이론으로 쓰는지 확인하고자 공부해보았습니다. # PCA library(dplyr) library(ggplot2) library(magrittr) # 데이터 x
[데이터분석기사 실기] 데이터 전처리 작업 - 그룹별(Group by) 데이터 추출 및 계산 - 실기 작업 1유형 데이터 전처리 작업 - 그룹별(Group by) 데이터 추출 및 계산 select( ), filter( ), subset( ) 함수를 사용하여 데이터를 추출하는 방법을 공부하겠습니다. ​ ? dplyr::select # Subset columns using their names and types ? dplyr::filter # Subset rows using column values ? subset # Subsetting Vectors, Matrices and Data Frames ​ 데이터셋 설명 kaggle사이트에서 데이터를 쭉 보다가 흥미로운 데이터가 있어서 정하게 되었습니다.​ 제공 데이터 세계 행복 보고서(World Happiness Report) 데이터 ( 데이터 출처 ) ​ world-hap..
[데이터분석기사 실기] 예시문제 풀이 - 로지스틱 회귀 (Logistric Regression) - 실기 작업 2유형 설명 아래는 백화점 고객의 1년 간 구매 데이터이다. 데이터 출처는 https://www.dataq.or.kr/www/main.do 입니다. (가) 제공 데이터 목록 ① y_train.csv : 고객의 성별 데이터 (학습용), CSV 형식의 파일 ② X_train.csv, X_test.csv : 고객의 상품구매 속성 (학습용 및 평가용), CSV 형식의 파일 (나) 데이터 형식 및 내용 ① y_train.csv (3,500명 데이터) custid: 고객 ID gender: 고객의 성별 (0: 여자, 1: 남자) ② X_train.csv (3,500명 데이터), X_test.csv (2,482명 데이터) ​ 고객 3,500명에 대한 학습용 데이터(y_train.csv, X_train.csv)를 이용하여 성..