Tabular Playground Series - Apr 2021 후기

Kaggle

Tabular Playground Series - Apr 2021 후기

Alex_Rose 2021. 5. 3. 16:52

데이터 특성

1) 기존의 타이타닉 생존 데이터를 기반으로, CTGAN으로 인위적으로 생성한 데이터(10만)

2) 1번 때문인지 실제 현실에서는 불가능한 데이터들이 껴 있었다 (e.g. 승선한 가족 사이즈가 수십명이거나..)

Preprocessing & EDA (+ Pseudo labels)

1) 결측치 처리 : 데이터 자체의 비현실성이 컸고, 실제 타이타닉 데이터의 칭호처럼 레퍼런스할 수 있는 항목도 없었으므로, 결측치는 해당 칼럼의 mean값이나 median 값으로 그냥 채워주었다 (뭘로 하든 결과에서 유의미한 차이를 느끼지 못했음)

2) feature 생성 : FamilySize 외에는 만들지 않았다

3) 다른 캐글러가 트레이닝 셋으로 모델을 트레이닝하고, 다시 트레이닝 + 테스트를 섞어서 얻어낸 결과물, Pseudo label을 사용하였다. 여러개의 pseudo label 중 현재 커널(코드)에서 submission했을 때, 가장 성능이 좋게 나왔던 레이블을 사용하였다. (물론 submission 제한에 계속 걸림..)

Hyperparameters

1) GridSearchCV를 통해 얻어진 best parameters를 사용했다

2) 위의 Grid search와 별개의 하이퍼파라미터 튜닝을 시도했으나, 위의 1)번에서 나온 결과값보다 더 못한 결과만 계속 보았다

Models

1) CatBoost, LightGBM, XGBoost의 결과값을 앙상블해서 사용하였다.

2) 위의 세 모델은 Discussion에서 다른 캐글러들이 현재 데이터에 대한 모델 성능 체크 라이브러리를 돌려서 얻은 결과 중, 가장 성능이 좋은 애들이었다.

ETC

1) 막판에 리더보드상의 쉐이킹이 심하게 일어났다. 퍼블릭 리더보드에서 상위권에 위치했던 사람이, 프라이빗에서는 쫘라락 떨어지는 사태가 발생, 동시에 그 아래 ~200 정도에 있던 사람들이 상위로 올라가는 현상이 발생했다.

저작자표시 비영리 변경금지 (새창열림)