일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- #영어공부
- #체험수업
- 성내동장어
- 총각네장어
- 링글
- Ringle
- 영어로전세계와소통하기
- 영어회화
- #직장인영어
- 화상영어
- 뉴노멀챌린지
- #Ringle
- 영어공부법
- 링글리뷰
- 장어랑고기같이
- 해외취업컨퍼런스
- 영어공부
- #영어발음교정
- #nlp
- CommunicateWiththeWorld
- 링글경험담
- #링글후기
- 둔촌역장어
- #링글
- 강동구장어맛집
- 스몰토크
- 영어시험
- 오피스밋업
- 소통챌린지
- 링글커리어
- Today
- Total
Soohyun’s Machine-learning
Tabular Playground Series - Apr 2021 후기 본문
데이터 특성 |
1) 기존의 타이타닉 생존 데이터를 기반으로, CTGAN으로 인위적으로 생성한 데이터(10만)
2) 1번 때문인지 실제 현실에서는 불가능한 데이터들이 껴 있었다 (e.g. 승선한 가족 사이즈가 수십명이거나..)
Preprocessing & EDA (+ Pseudo labels) |
1) 결측치 처리 : 데이터 자체의 비현실성이 컸고, 실제 타이타닉 데이터의 칭호처럼 레퍼런스할 수 있는 항목도 없었으므로, 결측치는 해당 칼럼의 mean값이나 median 값으로 그냥 채워주었다 (뭘로 하든 결과에서 유의미한 차이를 느끼지 못했음)
2) feature 생성 : FamilySize 외에는 만들지 않았다
3) 다른 캐글러가 트레이닝 셋으로 모델을 트레이닝하고, 다시 트레이닝 + 테스트를 섞어서 얻어낸 결과물, Pseudo label을 사용하였다. 여러개의 pseudo label 중 현재 커널(코드)에서 submission했을 때, 가장 성능이 좋게 나왔던 레이블을 사용하였다. (물론 submission 제한에 계속 걸림..)
Hyperparameters |
1) GridSearchCV를 통해 얻어진 best parameters를 사용했다
2) 위의 Grid search와 별개의 하이퍼파라미터 튜닝을 시도했으나, 위의 1)번에서 나온 결과값보다 더 못한 결과만 계속 보았다
Models |
1) CatBoost, LightGBM, XGBoost의 결과값을 앙상블해서 사용하였다.
2) 위의 세 모델은 Discussion에서 다른 캐글러들이 현재 데이터에 대한 모델 성능 체크 라이브러리를 돌려서 얻은 결과 중, 가장 성능이 좋은 애들이었다.
ETC |
1) 막판에 리더보드상의 쉐이킹이 심하게 일어났다. 퍼블릭 리더보드에서 상위권에 위치했던 사람이, 프라이빗에서는 쫘라락 떨어지는 사태가 발생, 동시에 그 아래 ~200 정도에 있던 사람들이 상위로 올라가는 현상이 발생했다.