박우석 Wooseok Park

Junior Data Scientist

협업 능력과 꾸준함이 강점인 데이터 과학자, 박우석입니다. 8명의 공저자들과 함께 관측 데이터 분석 결과를 SCIE급 저널에 1저자로 기고하였으며, 5인 팀 프로젝트로 추천 시스템 서비스를 구축, 실사용자 확보 및 A/B 테스트를 수행한 경험이 있습니다. 현재는 추천 시스템과 그래프 이론에 관심을 갖고 공부하고 있으며, 지속적인 Kaggle 대회 참여로 실전 데이터 분석 및 예측에도 계속 도전하고 있습니다.

PDF vCard JSON

Email: hoeen5373@gmail.com

GitHub: hoeen

Projects

Jan 2023 – Feb 2023

길동국사 - 한국사능력검정시험 기출문제 개인화 추천 서비스 [Wrap-up Report]

효율적인 한국사능력검정시험 학습을 제공하고자 유저 개인별 풀이 기록을 학습하여 유저에게 틀릴 가능성이 높은 문제를 추천하는 서비스입니다.

백엔드 및 추천 모델링을 담당하여 추천 시스템 패키지인 RecBole을 이용해 넓은 범위의 추천 모델 오프라인 테스팅을 수행하고 SASRec, EASE 를 user-based 추천 모델로 서빙
신규 유저의 Cold-Start 문제를 해결하기 위해 해설 키워드에서 형태소를 추출 및 임베딩하여 문제끼리의 유사도를 틀린 문제와 유사한 문제를 제공하는 컨텐츠 기반 추천모델을 구현
프로젝트 기간 동안 누적 유저 180명, 누적 문제풀이 수 12000건 이상 달성
A/B test를 통해 모델 추천 문제의 사용자 오답률이 높음을 확인하여 틀릴 문제를 추천하는 모델의 효용성을 온라인 테스트로 검증함

May 2023 – present

Kaggle - Predict Student Performance from Game Play 참여 [repo]

[진행중] Kaggle에서 주최하는 Predict Student Performance from Game Play 대회에 참여하여 학습용 게임 로그 기록을 바탕으로 게임에서 등장하는 18개 질문에 대한 유저의 정답 여부를 예측하였습니다.

데이터-라벨이 일대일 대응이 아닌 상황이므로 각 질문에 대응하는 18개의 CatBoost 모델을 학습, 실시간 데이터 api에 대응하여 추론하도록 구현
LSTM을 이용하여 사용자의 게임 로그를 embedded sequence data로 변환, 정답여부를 예측하는 시계열 모델을 구현
F1-score 성능지표를 Baseline 모델의 0.6과 비교하여 LSTM으로 0.67 달성 및 CatBoost로 0.693 달성

Dec 2022 – Jan 2023

Deep Knowledge Tracing 대회 (네이버 부스트캠프 과정) [Wrap-up Report]

학생 문제풀이 기록을 바탕으로 마지막 문제의 정답 여부를 예측하는 대회입니다. EDA 및 특성공학, CV 테스트 및 모델링을 담당하였습니다.

SHAP value를 이용해 머신러닝 모델에서의 feature 기여도를 시각화하고 이에 기반한 feature selection을 적용
기존의 유저별 Cross-Validation과 달리 모든 유저를 활용하고 마지막 t번째 문제를 validation으로 활용하는 Sequential CV를 구현하여 성능 10% 향상
Optuna를 이용한 하이퍼파라미터 튜닝 및 LightGBM 3개를 soft-voting 방식으로 앙상블하여 평가지표인 AUROC를 0.82에서 0.8597까지 향상

Publications

Oct 2021

Quantifying Variability of Young Stellar Objects in the Mid-infrared Over 6 Years with the Near-Earth Object Wide-field Infrared Survey Explorer by Wooseok Park

근지구천체(소행성 등) 관측 적외선 우주망원경의 데이터를 이용하여 훨씬 먼 1000광년 거리의 원시성(탄생 초기의 별) 약 6000개의 데이터를 발굴, 정제하였고 밝기변화 형태를 최초로 6가지로 분류하였습니다. 분류 형태 및 밝기변화를 주기성, 진폭, 불확실도 등 다양한 지표를 통해 설명하였고, 진화 초기의 원시성에서 밝기변화가 극심하며 후기로 진화할수록 밝기변화가 줄어듦을 관측적으로 증명하였습니다.

Resampling으로 관측 데이터 노이즈를 억제하여 밝기변화를 일으키는 원시성을 찾아냄
밝기변화의 주기성, 선형 피팅, 에러 대비 불확실도 등 다수의 새로운 지표 생성하여 밝기변화를 다각도로 수치화, 이를 이용해 원시성 밝기변화의 형태를 선형, 곡선형, 불규칙형 등 6가지로 분류
분류 결과를 원시성의 규명된 진화단계와 대조하여 heatmap, scatter plot 등 20가지의 시각화로 진화 단계별 밝기변화 형태를 설명함
6년간의 장기적으로 축적된 데이터를 발굴 및 유의미한 인사이트를 발견하고 새롭게 정제하여 데이터를 재배포하는 경험
연구 결과를 1저자로 미국 천체물리학 저널에 논문 투고하여 25회 이상 인용되는 성과를 거둠

Skills

Data processing and Visualization

Pandas
Matplotlib

ML optimization & ensemble

Pytorch
wandb

Recommendation System

Recbole

Version control, Co-op

Git
Notion
Slack

Database

MySQL
PostgreSQL

Education

Sep 2022 – Feb 2023

Naver Boostcamp AI Tech 4기 from Naver Connect

Pytorch, AI Math
Memory-based / Model-based Collaborative Filtering
Data Visualization
Prototyping and Servicing AI

Sep 2021 – Apr 2022

AI Bootcamp from Codestates

Algorithm / Data Structure
Statistics
Data Analysis / Modeling
Data Engineering / Deploying application

Mar 2019 – Aug 2021

M.Sc from Space Science Research, Kyung Hee University

Radio / Infrared signal processing
Data Processing
Statistical Analysis

박우석 Wooseok Park

Projects

길동국사 - 한국사능력검정시험 기출문제 개인화 추천 서비스 [Wrap-up Report]

Kaggle - Predict Student Performance from Game Play 참여 [repo]

Deep Knowledge Tracing 대회 (네이버 부스트캠프 과정) [Wrap-up Report]

Publications

Quantifying Variability of Young Stellar Objects in the Mid-infrared Over 6 Years with the Near-Earth Object Wide-field Infrared Survey Explorer by Wooseok Park

Skills

Education

Naver Boostcamp AI Tech 4기 from Naver Connect

AI Bootcamp from Codestates

M.Sc from Space Science Research, Kyung Hee University

Wooseok's
Dev Blog

Error

Projects

Highlights

Highlights

Highlights

Publications

Highlights

Skills

Education

Courses

Courses

Courses

Templates (for web app):

Error