Today I Learned - 20211021
in Study / Til
이지훈 코치님 : 결국 전문가가 되기 위해서는 배운 내용을 가지고 자체 부트캠프를 가진다 생각해야 함. 빠르게 넘어가기 때문에. 하지만 올바르게 활용할 수 있는 수준을 만들어줄것이다.
- Classification (분류)
- 분류문제는 회귀와 달리 (평균값), 가장 빈번하게 나타나는 범주(class)를 기준모델로 설정한다.
- 시계열 데이터는 이전 시간의 데이터가 기준모델이 된다.
- 타겟 변수가 편중된 데이터인 경우, 모델을 만들 때 주의해야 한다. 기준모델로도 높은 정확도를 보일 수 있기 때문
- 분류에서는 회귀와 다른 평가지표를 사용하며, 절대로 서로의 평가지표를 사용해서는 안됨.
- 분류문제에서 사용하는 평가지표 : 정확도
singleimputer : 결측치를 평균 등으로 채워주는 간단한 모듈
- 로지스틱 회귀모델 : 0 / 1 로 분류해주는 식 - sigmoid 함수가 예.
- Logit transformation
비선형함수에서 로지스틱회귀를 직관적으로 계산하기 어렵지만 오즈(odds) 를 사용하면 선형결합형태로 이를 변환 가능하다.
맨 아래 식인 오즈에 로그를 취해 변환하는 과정을 로짓변환 (Logit transformation) 이라고 한다.
Overfitting 되었을 시 : 그래도 적은 데이터 중에서 가능성을 찾은 것이다. -> Ridge 시도해 볼 수 있다.
Q) 로지스틱 회귀를 기준모델로 사용하는 이유? 많이 이용된다.
A) 그냥 일반적인 하나만 찍는 기준모델보다는 조금 더 성능이 괜찮다.