Random Forest
Jun 30, 2020
random forest는 Bagging을 이용한 ensemble 기법 중 하나다. 변수의 임의추출을 통해 ensemble의 다양성을 확보한다. 즉 Bootstrap Bagging과 변수 임의추출을 조합한 기법이다. tree개수가 많아 해석보다는 예측에 중점을 둔 기법이며, regression과 classification 모두 가능하다.
...
➦
Neural Network
May 27, 2020
진행하기에 앞서 데이터의 정보를 확인한다.
data<-read.csv("data/nasa.csv") summary(data);str(data) ## Neo.Reference.ID Name Absolute.Magnitude Est.Dia.in.KM.min. ## Min. :2000433 Min. :2000433 Min. :11.16 Min. : 0.001011 ## 1st Qu.:3097594 1st Qu.:3097594 1st Qu.:20.10 1st Qu.
...
➦
Decision Tree
May 18, 2020
진행하기에 앞서 데이터의 정보를 확인한다.
data<-read.csv("data/diabetes.csv") table(data$Outcome) ## ## 0 1 ## 500 268 summary(data);str(data) ## Pregnancies Glucose BloodPressure SkinThickness ## Min. : 0.000 Min. : 0.0 Min. : 0.
...
➦
Step Model
Apr 27, 2020
1 First divide the data into two pieces using 50:50 proportion: one for training and the other for test. (Use the last four digit of your ID as the seed number and use 50:50 proportion)
...
➦
Linear Regression
Apr 06, 2020
변수 검토 먼저 이후의 작업상의 편의를 위해 디렉토리를 지정, 패키지를 불러온다. names()로 변수명을 확인하고 추가적으로 str()나 summary()등을 이용해 전체 데이터에 대해 파악한다.
library('readxl') ## Warning: 패키지 'readxl'는 R 버전 3.
...
➦