High Cardinality Encoding
in Study / Kaggle
Ref : Dealing with features that have high cardinality
The Curse of Dimensionality
As the number of features grows, the amount of data we need to accurately be able to distinguish between these features (in order to give us a prediction) and generalize our model (learned function) grows EXPONENTIALLY.
차원의 저주 : feature 수가 많아지면 모델 학습과 일반화에 필요한 데이터의 양이 기하급수적으로 늘어난다. 따라서 One-hot encoding은 적합하지 않다.
High cardinality feature의 경우 threshold를 설정하여 빈도가 높은 값 상위 몇 개를 제외하고는 other로 하는 방법이 많이 쓰이나, 값들의 빈도가 거의 같아서 우열을 가리기 힘든 경우에는 PCA등 차원 축소를 고려해야 할 수도 있다.