Today I Learned - 20211021

이지훈 코치님 : 결국 전문가가 되기 위해서는 배운 내용을 가지고 자체 부트캠프를 가진다 생각해야 함. 빠르게 넘어가기 때문에. 하지만 올바르게 활용할 수 있는 수준을 만들어줄것이다.

  • Classification (분류)
    • 분류문제는 회귀와 달리 (평균값), 가장 빈번하게 나타나는 범주(class)를 기준모델로 설정한다.
    • 시계열 데이터는 이전 시간의 데이터가 기준모델이 된다.
    • 타겟 변수가 편중된 데이터인 경우, 모델을 만들 때 주의해야 한다. 기준모델로도 높은 정확도를 보일 수 있기 때문
    • 분류에서는 회귀와 다른 평가지표를 사용하며, 절대로 서로의 평가지표를 사용해서는 안됨.
    • 분류문제에서 사용하는 평가지표 : 정확도
  • singleimputer : 결측치를 평균 등으로 채워주는 간단한 모듈

  • 로지스틱 회귀모델 : 0 / 1 로 분류해주는 식 - sigmoid 함수가 예.
  • Logit transformation
    • 비선형함수에서 로지스틱회귀를 직관적으로 계산하기 어렵지만 오즈(odds) 를 사용하면 선형결합형태로 이를 변환 가능하다.

    • 맨 아래 식인 오즈에 로그를 취해 변환하는 과정을 로짓변환 (Logit transformation) 이라고 한다.

img

Overfitting 되었을 시 : 그래도 적은 데이터 중에서 가능성을 찾은 것이다. -> Ridge 시도해 볼 수 있다.

Q) 로지스틱 회귀를 기준모델로 사용하는 이유? 많이 이용된다.

A) 그냥 일반적인 하나만 찍는 기준모델보다는 조금 더 성능이 괜찮다.


© 2023. All rights reserved.