my photo

Wooseok Park 박우석

첫 데이터 분석 프로젝트에서 1저자로 SCIE급 논문을 써낸
높은 잠재력의 소유자, 박우석입니다.

천문학 관측 데이터 분석을 통해 noisy한 데이터의 전처리 방법과 새로운 feature들을
학계에 제안했으며 약 2700회 다운로드, 70회 이상 인용되는 성과를 낳았습니다.

이후 음성 분야에서 병렬처리를 활용한 Speech-To-Text 전사 속도 단축,
교육 분야에서 추천 파이프라인 최적화, 지식추적 AI 모델 개발을 담당하며
다양한 AI 도메인에서 성과를 도출하였습니다.

데이콘 대회 상위 4% 진입, 캐글 동메달 수여를 통해
머신러닝 모델링 및 데이터 분석 실력을 검증하였으며,

사이드 프로젝트로 추천 모델을 통합한 SLM+RAG 챗봇으로
기존 SLM의 성능을 최대 65% 향상시켰고,
한능검 추천 ai 프로젝트에서 실사용자 A/B테스트를 통해 KPI를 달성하는 등
개인화 추천 AI 서비스 기획 뿐 아니라 그 성과를 정량적으로 측정하려 노력하고 있습니다.

분석 논문을 기고한 경험을 통해 데이터 분석 결과를 효과적인 메시지로 전달하겠으며,
다양한 도메인에서의 머신러닝 경험을 바탕으로
새로운 환경에 빠르게 적응하고 주어진 문제들을 해결하겠습니다.


Experience

TmaxEduAI / (주)티맥스알지

Researcher (Full-time) • Feb, 2024 — Now

지식 추적 모델링 및 추천 시스템 유지보수, AI 기반 교육 서비스 설계

  • 지식 추적 모델링 - 학습 및 망각 곡선을 적용한 AI 지식 추적 모델 개발
  • 데이터 파이프라인 유지보수 - GPU 환경 이관, 유지보수 및 최적화
  • AI 디지털 교과서 개발 - 학생 학습이력 기반 Rule-based 문제추천 api 기획 및 개발

Humelo Inc.

Voice AI Engineer (Full-time) • Jul, 2023 — Nov, 2023

  • 다국어 오디오 데이터 전사 및 Phoneme CER 품질 측정
  • AI 실시간 음성변조 오픈소스 테스팅

Projects

KEIT 정부지원사업 - 비전공자 AI 교육과정 지식 추적 모델 개발

(진행중) 지식추적 논문 구현, 모델 학습용 데이터셋 구축 • Oct, 2024 — Dec, 2024

휴먼 팩터 (학습 곡선, 망각 곡선) 를 고려한 학생 지식 상태 및 시험 점수 예측 모델 구현,
정확도 77% 및 F1 score 0.86 달성
사용 기술 - Python (Pytorch, LangChain)

  • 풀이 로그 데이터 및 시험-스킬셋 매핑 데이터 학습, 시점 T에서 스킬셋 k에 대한 학생 u의 지식 상태를 표현
  • 학습 및 망각 곡선의 가중치 합으로 표현되는 학생별 learning factor 학습 및 학생의 학습 시간 T 시점에서의 시험 통과여부 예측
  • 학습 데이터 구축 과정에서 LangChain, GPT-4o-mini를 활용해 6000개 문제와 100여개 스킬셋 매핑, Human labeling 5시간 소요작업을 20분으로 단축.

멀티캠퍼스 교육 컨텐츠 추천 파이프라인 이관 사업

MLOps • Jul, 2024 — Oct, 2024

추천 엔진 워크플로우 관련 기존 레거시 코드 유지보수
사용 기술 - Python (Pytorch, Pandas), Airflow, OracleDB, Docker-compose

  • DB 에서 데이터 추출, 변환을 통해 모델 학습 및 추론결과 DB 삽입 까지 전 과정의 레거시 코드 파악 후 DAG 순서, 스케쥴링 조정 및 유지보수
  • Docker-compose 를 활용한 Airflow 환경 빌드 및 운영/품질계 Docker 이미지 일치화를 통해 추후 유지보수 및 에러 대응에 용이하게 조치
  • Pandas 이용한 기존 행 단위의 전처리 과정이 DB 데이터 증가로 인해 병목현상 발생. groupby 를 이용한 병렬 처리로 변경하여 전처리 시간 6시간에서 20분으로 단축 성과

미래엔 수학 교과 AI 디지털 교과서 개발

학생 맞춤형 문제지 추천 API 기획 및 개발 • Mar, 2024 — Sep, 2024

사용 기술 - Java, Spring Boot, TiberoDB

  • AI 추천 시스템에서, 학생 문제풀이 이력이 부족한 Cold-Start 환경에 대응하는 Rule-based 형태의 문제 추천 API 개발
  • 학생의 성취도에 맞춘 문제 난이도 구성 Rule 및 대규모 ERD에서의 문제 추천 API Logic 설계
  • 학생의 문제풀이 이력을 조회하여 중복 없는 개인 맞춤형 문제지 생성 기능 구현
  • 문제지 추천 API 성능 최적화 - 전국 학생 동시 접속 시나리오의 부하 테스트를 진행하며 대규모 데이터를 고려한 쿼리 로직 최적화 및 DB 인덱싱을 통해 API 호출 속도를 15초 이상에서 3초 이내로 단축

우리랑코리아 다국어 오디오 데이터 전처리

오디오 데이터 전사, 성능 측정 • Jul, 2023 — Sep, 2023

OpenAI Whisper 오픈소스 모델 활용한 다국어 오디오 전사 및 성능 측정 방식 구현
사용 기술 - Python (Pytorch, OpenAI-Whisper)

  • 6개 국어 - 중국어, 베트남어, 태국어, 인도네시아어, 러시아어, 아랍어 총 300시간의 오디오 전사 수행

  • 데이터 조각화를 활용한 GPU 병렬화로 전사 속도 약 3배 향상
    - 기존 1배속 전사 방식의 느린 작업 시간 개선 필요성 식별.
    - 수 시간의 오디오 파일을 그대로 전사하는 기존의 방식에서, 사전에 문장 단위로 오디오를 분할하는 전처리 추가. 분할된 세그먼트 오디오를 multiprocessing의 process, queue를 이용해 병렬 처리 구현
    - 기존 50시간의 작업 단위를 약 17시간으로 단축 성과
    - 가용 GPU 개수 증가할수록 작업시간이 비례하여 줄어드는 병렬화된 전사 프로세스 구축

  • Phoneme Character Error Rate (PCER) 을 활용한 음소 단위의 전사 품질 측정

  • 아랍어 문자체계 및 숫자 체계 전처리 방식 추가 등 다양한 문자체계에 대응

[Side Project] 제주 관광지 챗봇, 제주냥

VectorDB 구축 및 LangChain Retriever 고도화 • Jan, 2024 — Sep, 2024

SLM + RAG 프로젝트. 제주도의 관광 정보에 대한 Q&A 가능한 챗봇 구현
사용 기술 - Python (LangChain, Selenium, Streamlit)

  • 비짓제주 사이트 관광정보 데이터 및 공공 와이파이 이용자 동선 데이터를 활용, RAG 기반 정보 제공과 item-based CF 기반 동선 추천 기능 탑재
  • 질문의 의도파악 후 각 의도에 맞는 정보 Querying을 활용한 RAG 방식의 질의응답으로, 장소 / 내용 / 기타 등 다양한 사용자 질문을 판별하여 알맞은 응답 반환
  • 기존 SLM (경량화한 LLM. gpt-4o-mini 사용) 대비 SLM + RAG 으로 4-gram BLEU score 기준 성능 57% 향상

[Kaggle Competition]
Enefit - Predict Energy Behavior of Prosumers

225th/2,731 (Top 8%, Bronze Medal) as a Team • Jan, 2024 — Apr, 2024

자가 발전 가정 및 시설의 에너지 생산 및 소비 동시 예측 대회 - 팀명 tillthelastsubmission
사용 기술 - Python (Pytorch, Catboost, LightGBM)

  • 이전 데이터를 활용하는 Lagged Feature 도입하여 부스팅 ML 모델로 시계열 특성을 학습할 수 있게 데이터 전처리
  • 신경망 모델 + LightGBM + CatBoost 를 앙상블하여 모델의 일반화 능력 향상 및 baseline 모델 대비 MAE 10% 향상 (70 -> 63)
  • 제출 코드 링크 - https://www.kaggle.com/code/hoeen5373/deeptables-nn-lgbm-voting-catboost-ense-baa754

[Dacon Competition]
제1회 국민대학교 AI빅데이터 분석 경진대회

21st/1,125 (Top 4%) as a Solo • Oct, 2023 — Nov, 2023

채용공고 AI 추천 알고리즘 구현 - 단독 참여 - 팀명 hoeen
사용 기술 - Python

  • Rule 및 ML 추천 모델 - 유저/아이템 협업 필터링, 콘텐츠/인기도 기반 추천, ALS MF 구현 및 앙상블
  • 베이지안 최적화 툴인 Optuna로 앙상블 가중치를 하이퍼파라미터 튜닝
  • 앙상블 및 튜닝 결과 모델의 일반화 성능을 높여 Public Dataset의 과적합을 피하고 Private Dataset에서 높은 성능을 보여 21등 (상위 4%) 달성 (Public 157등 -> Private 21등).

[Kaggle Competition]
Predict Student Performance from Game Play

May 2023 — Jun 2023

유저 게임 기록 데이터를 기반으로 게임 중간에 등장하는 문제 18개 정답 여부를 예측하는 대회
시퀀스 임베딩 + LSTM 예측모델 구축. 사용 기술 - Python (Pytorch, WandB)

  • 연속형, 범주형 변수를 나누어 각각 Linear 레이어, 임베딩 레이어를 통해 유저 로그 시퀀스를 벡터화
  • LSTM 모델을 활용해 유저 로그 시퀀스를 학습, Fully Connected 레이어와 Sigmoid 레이어를 통해 최종 18개의 문제풀이 확률을 0~1 사이로 반환
  • logistic regression baseline 대비 F1-score 30% 향상

[Side Project] 길동국사
- 한국사능력검정시험 기출문제 개인화 추천 서비스

추천 서비스 기획 및 KPI 측정, 추천 모델링 • Jan 2023 — Feb 2023

유저 개인별 풀이 기록을 학습, 틀릴 가능성이 높은 문제를 개인화 추천하는 AI 서비스 구현, 실사용자 확보 및 A/B 테스트 진행
사용 기술 - Python (Pytorch, FastAPI)

  • 유저 풀이 기록을 바탕으로 오프라인 테스트를 통해 NDCG, Recall 지표가 높은 EASE, SASRec 모델을 선정
  • 해설 키워드 형태소 추출, 임베딩을 활용한 컨텐츠 기반 추천으로 풀이 기록이 적은 신규 유저의 Cold-start 문제 해결
  • 애자일한 프로젝트 운영으로 초기부터 이용자를 확보하여 프로젝트 기간 총 1개월 간 누적 유저 180명, 누적 문제풀이 수 12000건 이상 달성
  • 유저 대상으로 모델 추천 5문제 + 랜덤 추천 5문제를 무작위로 추천하는 'AI 문제추천' 기능을 통해 각 추천 방식의 오답률 비교 A/B 테스트
  • KPI를 랜덤추천보다 더 높은 오답률로 설정. 유저 대상 온라인 A/B 테스트를 통해 모델 추천을 통한 오답률이 랜덤 추천 대비 40% 이상 증가함을 확인하여 서비스의 효용성 검증

Research

NEOWISE 우주망원경 원시성 관측 시계열 데이터 분석

Jan 2020 — Aug 2021

(석사 연구) 인공위성 우주망원경 NEOWISE의 6.5년 간의 밝기변화 데이터를 정제 및 분석, 100~1000년 주기의 원시성 (어린 별) 의 장기적 밝기변화 양상 연구.
데이터 전처리 방식 / Feature 측정 / 원시성 라벨링에 대한 새로운 기준 제안.
Role - 데이터 정제, 분석 및 시각화 담당, 논문 1저자
사용기술 - python (astropy, matplotlib, scipy, pandas)

  • 6.5년 간 축적된 총 200만 row의 우주망원경 관측 데이터에서 2sigma 이상의 밝기 및 공간적 이상치를 제거하여 노이즈 45% 감소, 1700개의 밝기가 변하는 원시성 발견

  • 불규칙한 밝기변화 패턴을 정량화하기 위해 새로운 Feature 고안
    - 푸리에 변환을 이용한 주기성 피팅의 적합도 및 False Positive Rate 계산
    - 밝기 이상치가 전체 밝기변화폭에서 갖는 비율을 측정해
    원시성의 순간적인 폭발 및 밝기꺼짐 수치화

  • 원시성 밝기변화 형태를 6가지 - 선형, 곡선형, 주기형, 일시적 폭발, 일시적 꺼짐, 불규칙형 변화로 신규 제안 및 기존 데이터 라벨링

  • 라벨링 및 수치화 결과를 선행연구와 대조한 결과, 초기 진화 단계 (Class 0-I) 에서 밝기변화가 크고 불규칙하며 이후 단계 (Class II-III)로 갈수록 밝기변화 감소 및 규칙적인 추세 발견. 기존 시뮬레이션을 통한 이론적 예측을 강력히 뒷받침하는 인사이트 도출.

  • 미국 Astrophysical Journal에 1저자로 논문 기고하여 피인용수 70회 이상 달성

  • 중국, 캐나다, 영국의 공저자들과 매주 1회 원격 미팅 및 협력연구 장기출장 등 글로벌한 협업 수행

Education

Naver Connect

Naver Boostcamp AI Tech - RecSys track • Sep 2022 — Feb 2023

네이버 부스트캠프 4기 수료. 추천 시스템 학습 및 AI 추천 서비스 구현 경험

  • 추천 시스템 모델링
  • AI 프로토타이핑 및 서빙

Codestates

AI Bootcamp • Sep 2021 — Apr 2022

컴퓨터공학 및 인공지능 기초 학습

  • 통계, 머신러닝
  • 자료구조, 알고리즘
  • 데이터 엔지니어링

School of Space Research, Kyung Hee University

M.Sc. in Astrophysics • Mar 2019 — Aug 2021

GPA 4.14 / 4.3

석사 논문 - Quantifying Variability of Young Stellar Objects in the Mid-infrared Over 6 Years with the Near-Earth Object Wide-field Infrared Survey Explorer

  • Signal Data Processing
  • Statistical Analysis
  • Infrared Astronomy

Kyung Hee University

Bachelor of Space science and Astrophysics • Mar 2013 — Feb 2019

GPA 3.41 / 4.3

Skills

Python [3-year experience]

  • 데이터 전처리, 분석 및 시각화
  • Pytorch - ML/DL 모델 이해 및 구현, AI 추천 시스템 모델링
  • 통계분석, 수리모델링

Java [1-year experience]

  • DB 연결 api 제작 및 문제추천 로직 생성 경험

Docker

  • docker-compose 를 활용한 다중 컨테이너 설계 및 유지보수

LangChain

  • 프롬프트 엔지니어링 및 LCEL 활용한 LLM 튜닝 가능
  • VectorDB 구축 및 Retriever 설계
  • LLM 을 활용한 서비스 기획, 개발 및 배포 경험

Airflow

  • OracleDB 와 연계한 데이터 수집 및 AI 모델 input 으로 전처리, 추론 결과 삽입 등 수행 경험
  • DAG 스케쥴링 조정 및 프로세스 순서에 맞게 기존 워크플로우 조정 경험

Sqlite, Oracle SQL

  • With 절 및 서브쿼리 활용하여 각 상황에서 필요한 데이터 쿼리 가능
  • 관계형 데이터베이스 ERD 기획 경험

Git

  • 프로젝트의 버전 관리 및 브랜치 매니징

기타 업무적 역량

  • 비즈니스 영어 회화 및 글로벌 협업 역량

Social Links

  • Github: https://github.com/hoeen
  • LinkedIn: https://www.linkedin.com/in/hoeen/

Made by Wooseok Park.