박우석 Wooseok Park

Junior Data Scientist
협업 능력과 꾸준함이 강점인 데이터 과학자, 박우석입니다. 8명의 공저자들과 함께 관측 데이터 분석 결과를 SCIE급 저널에 1저자로 기고하였으며, 5인 팀 프로젝트로 추천 시스템 서비스를 구축, 실사용자 확보 및 A/B 테스트를 수행한 경험이 있습니다. 현재는 추천 시스템과 그래프 이론에 관심을 갖고 공부하고 있으며, 지속적인 Kaggle 대회 참여로 실전 데이터 분석 및 예측에도 계속 도전하고 있습니다.
- hoeen5373@gmail.com
- GitHub
- hoeen
Projects
–
길동국사 - 한국사능력검정시험 기출문제 개인화 추천 서비스 [Wrap-up Report]
효율적인 한국사능력검정시험 학습을 제공하고자 유저 개인별 풀이 기록을 학습하여 유저에게 틀릴 가능성이 높은 문제를 추천하는 서비스입니다.
Highlights
- 백엔드 및 추천 모델링을 담당하여 추천 시스템 패키지인 RecBole을 이용해 넓은 범위의 추천 모델 오프라인 테스팅을 수행하고 SASRec, EASE 를 user-based 추천 모델로 서빙
- 신규 유저의 Cold-Start 문제를 해결하기 위해 해설 키워드에서 형태소를 추출 및 임베딩하여 문제끼리의 유사도를 틀린 문제와 유사한 문제를 제공하는 컨텐츠 기반 추천모델을 구현
- 프로젝트 기간 동안 누적 유저 180명, 누적 문제풀이 수 12000건 이상 달성
- A/B test를 통해 모델 추천 문제의 사용자 오답률이 높음을 확인하여 틀릴 문제를 추천하는 모델의 효용성을 온라인 테스트로 검증함
– present
Kaggle - Predict Student Performance from Game Play 참여 [repo]
[진행중] Kaggle에서 주최하는 Predict Student Performance from Game Play 대회에 참여하여 학습용 게임 로그 기록을 바탕으로 게임에서 등장하는 18개 질문에 대한 유저의 정답 여부를 예측하였습니다.
Highlights
- 데이터-라벨이 일대일 대응이 아닌 상황이므로 각 질문에 대응하는 18개의 CatBoost 모델을 학습, 실시간 데이터 api에 대응하여 추론하도록 구현
- LSTM을 이용하여 사용자의 게임 로그를 embedded sequence data로 변환, 정답여부를 예측하는 시계열 모델을 구현
- F1-score 성능지표를 Baseline 모델의 0.6과 비교하여 LSTM으로 0.67 달성 및 CatBoost로 0.693 달성
–
Deep Knowledge Tracing 대회 (네이버 부스트캠프 과정) [Wrap-up Report]
학생 문제풀이 기록을 바탕으로 마지막 문제의 정답 여부를 예측하는 대회입니다. EDA 및 특성공학, CV 테스트 및 모델링을 담당하였습니다.
Highlights
- SHAP value를 이용해 머신러닝 모델에서의 feature 기여도를 시각화하고 이에 기반한 feature selection을 적용
- 기존의 유저별 Cross-Validation과 달리 모든 유저를 활용하고 마지막 t번째 문제를 validation으로 활용하는 Sequential CV를 구현하여 성능 10% 향상
- Optuna를 이용한 하이퍼파라미터 튜닝 및 LightGBM 3개를 soft-voting 방식으로 앙상블하여 평가지표인 AUROC를 0.82에서 0.8597까지 향상
Publications
Quantifying Variability of Young Stellar Objects in the Mid-infrared Over 6 Years with the Near-Earth Object Wide-field Infrared Survey Explorer by Wooseok Park
근지구천체(소행성 등) 관측 적외선 우주망원경의 데이터를 이용하여 훨씬 먼 1000광년 거리의 원시성(탄생 초기의 별) 약 6000개의 데이터를 발굴, 정제하였고 밝기변화 형태를 최초로 6가지로 분류하였습니다. 분류 형태 및 밝기변화를 주기성, 진폭, 불확실도 등 다양한 지표를 통해 설명하였고, 진화 초기의 원시성에서 밝기변화가 극심하며 후기로 진화할수록 밝기변화가 줄어듦을 관측적으로 증명하였습니다.
Highlights
- Resampling으로 관측 데이터 노이즈를 억제하여 밝기변화를 일으키는 원시성을 찾아냄
- 밝기변화의 주기성, 선형 피팅, 에러 대비 불확실도 등 다수의 새로운 지표 생성하여 밝기변화를 다각도로 수치화, 이를 이용해 원시성 밝기변화의 형태를 선형, 곡선형, 불규칙형 등 6가지로 분류
- 분류 결과를 원시성의 규명된 진화단계와 대조하여 heatmap, scatter plot 등 20가지의 시각화로 진화 단계별 밝기변화 형태를 설명함
- 6년간의 장기적으로 축적된 데이터를 발굴 및 유의미한 인사이트를 발견하고 새롭게 정제하여 데이터를 재배포하는 경험
- 연구 결과를 1저자로 미국 천체물리학 저널에 논문 투고하여 25회 이상 인용되는 성과를 거둠
Skills
- Data processing and Visualization
- Level: MasterKeywords:
- ML optimization & ensemble
- Level: IntermediateKeywords:
- Recommendation System
- Level: IntermediateKeywords:
- Version control, Co-op
- Level: IntermediateKeywords:
- Database
- Level: BeginnerKeywords:
Education
–
Naver Boostcamp AI Tech 4기 from Naver Connect
Courses
- Pytorch, AI Math
- Memory-based / Model-based Collaborative Filtering
- Data Visualization
- Prototyping and Servicing AI
–
AI Bootcamp from Codestates
Courses
- Algorithm / Data Structure
- Statistics
- Data Analysis / Modeling
- Data Engineering / Deploying application
–
M.Sc from Space Science Research, Kyung Hee University
Courses
- Radio / Infrared signal processing
- Data Processing
- Statistical Analysis