Today I Learned - 20211026
in Study / Til
Random Forest
Bootstrapping 으로 랜덤하게 중복을 허용하여 기존 데이터에서 샘플을 추출하고, feature 또한 랜덤하게 선택하여 이를 바탕으로 decision tree를 만든다.
여러가지 decision tree가 만들어지고, 여기에서의 예측 결과를 종합하여 bagging을 이용하여 가장 많은 투표결과를 실제 결과로 반환한다.
How to estimate the accuracy of a Random Forest?
- Out-of-Bag - bootstrapping에서 추출하지 않은 샘플을 가지고 예측을 해봄으로써, accuracy를 추정할 수 있다.
Bagging - Bootstrap Aggregating 의 줄임말. 모델 앙상블 기법 중 하나로 기준모델 (weak base model) 을 여러가지 이용하여 최종적으로 더 일반적이고 정확한 모델을 만든다.
%%time : 각 셀의 실행시간을 체크할 수 있음.
High cardinality 인 것을 one-hot encoding하면 decision tree에서 안좋다. 그 이유는?
- 범주 종류가 많으므로 나눠버리면 data sparsity가 높아져서.
n_estimators : 기본 모델의 개수 설정 하이퍼파라미터