Tabular Playground Series - Apr 2021 후기
데이터 특성 |
1) 기존의 타이타닉 생존 데이터를 기반으로, CTGAN으로 인위적으로 생성한 데이터(10만)
2) 1번 때문인지 실제 현실에서는 불가능한 데이터들이 껴 있었다 (e.g. 승선한 가족 사이즈가 수십명이거나..)
Preprocessing & EDA (+ Pseudo labels) |
1) 결측치 처리 : 데이터 자체의 비현실성이 컸고, 실제 타이타닉 데이터의 칭호처럼 레퍼런스할 수 있는 항목도 없었으므로, 결측치는 해당 칼럼의 mean값이나 median 값으로 그냥 채워주었다 (뭘로 하든 결과에서 유의미한 차이를 느끼지 못했음)
2) feature 생성 : FamilySize 외에는 만들지 않았다
3) 다른 캐글러가 트레이닝 셋으로 모델을 트레이닝하고, 다시 트레이닝 + 테스트를 섞어서 얻어낸 결과물, Pseudo label을 사용하였다. 여러개의 pseudo label 중 현재 커널(코드)에서 submission했을 때, 가장 성능이 좋게 나왔던 레이블을 사용하였다. (물론 submission 제한에 계속 걸림..)
Hyperparameters |
1) GridSearchCV를 통해 얻어진 best parameters를 사용했다
2) 위의 Grid search와 별개의 하이퍼파라미터 튜닝을 시도했으나, 위의 1)번에서 나온 결과값보다 더 못한 결과만 계속 보았다
Models |
1) CatBoost, LightGBM, XGBoost의 결과값을 앙상블해서 사용하였다.
2) 위의 세 모델은 Discussion에서 다른 캐글러들이 현재 데이터에 대한 모델 성능 체크 라이브러리를 돌려서 얻은 결과 중, 가장 성능이 좋은 애들이었다.
ETC |
1) 막판에 리더보드상의 쉐이킹이 심하게 일어났다. 퍼블릭 리더보드에서 상위권에 위치했던 사람이, 프라이빗에서는 쫘라락 떨어지는 사태가 발생, 동시에 그 아래 ~200 정도에 있던 사람들이 상위로 올라가는 현상이 발생했다.