Kaggle - Telecom Churn Case Study Hackaton
프로젝트 개요
분석 목적 | 고객 이탈을 예측하고, 이탈 위험이 높은 고객을 사전에 식별, 관리하여 고객들의 충성도를 높이기 위한 예측 모델 개발 |
사용 데이터 | Kaggle - Telecom Churn data set [train set (69999,172), test set(30000,171)] |
분석 기간 | 2024.07.09 ~ 2024.09.11 |
참여 인원 | 4인 팀프로젝트 |
역할 | - 팀장으로써 전반적인 프로젝트 진행사항 관리(notion 사용) |
사용언어 | Python / 리눅스, Jupyter notebook, 구글 코랩 |
성과 | Kaggle Telecom Churn Case Study Hackaton 2등 |
이 프로젝트는 4명이서 팀이 되어 진행했던 프로젝트이다. 저 시기에 열리는 데이터 공모전이 주로 아이디어를 내는 공모전 밖에 없어서 캐글에서 진행하는 해커톤에 참여했다. 데이터 셋이 2014년도 6,7,8월 데이터이다 보니까 3개월 짧은 기간의 데이터라서 아쉬웠다. 또한, 우리나라 요금제와는 다르게 충전식 하는 식의 요금제는 처음이라 생소했다.
이 프로젝트를 하면서 가장 많이 시간을 쏟아 부은 건 EDA와 전처리하는 과정이었다. 초반에는 결측치가 70%이상인 열은 데이터를 대체하더라도 bias가 생길 수 있다고 생각해서 삭제했었는데, 도와주시는 멘토님이 왜 삭제하느냐고 하셔서 당황했던 기억이 있다. 왜 삭제를 했는지, 다른 대체할 방법은 없었는지, 대체했다면 왜 그 방법을 사용했는지, 처리하는 모든 과정에는 그렇게 처리한 근거가 있어야한다고 멘토링 시간마다 강조하셨다. 그렇게 근거를 찾는 과정에서 가장 많은 시간을 쏟아부었다. 이 시간이 지루하고 힘들었었는데 생각해보면 앞으로 실무에 나가서도 근거를 기반으로 결정하고, 데이터 손실을 최소화하는 자세를 가지기 위한 시간이었던 것 같다.
이후 모델에 optuna를 이용해 하이퍼파라미터 튜닝하는 것까진 배웠었는데 앙상블 기법을 사용하는 건 또 새로웠다. 정말 마지막의 마지막까지 점수를 조금이라도 올리려고 팀원들 모두 고생했었다. 국비지원교육을 들으면서, 배우러 온김에 안해본 도전도 해보자 하고 팀장을 맡았었는데 멘토링 시간, 장소 결정, notion을 통해 멘토링 공유 및 정리 등 생각보다 신경쓸게 많았다. 그래도 팀원들 모두 다들 의견 소통도 잘 해주고 서로 공유하고 도와주면서 열심히 한 결과 2등이라는 성과를 거둘 수 있어서 좋았다.
'Project' 카테고리의 다른 글
[개인 프로젝트] 인사관리 및 조직의 유지율 전략 수립을 위한 직원 이직 예측 모델 (3) | 2024.07.24 |
---|---|
[개인 프로젝트] 고객 쇼핑 데이터를 통한 고객 분류 R 프로젝트 (1) | 2024.07.23 |
[개인 프로젝트] 고객 쇼핑 동향 데이터를 이용한 EDA 프로젝트 (0) | 2024.07.22 |
[개인 프로젝트] 채용 정보 데이터 수집 - SQL (2) | 2024.07.19 |
[개인 프로젝트] 채용정보 데이터 수집 웹크롤링 프로젝트 (0) | 2024.07.05 |