본문 바로가기
프로젝트/(세미)강남구 지역 상권 기반 시간대별 편의점 매출 예측

11. 프로젝트 회의 정리(09.16-17)

by 규딩코딩 2023. 9. 17.

 

회의정리

1반. Streamlit 구현

1-1 기존 기획

  • 기획했었던 지도 위의 영역선택을 기술적으로 해결할 수 있는 방안을 찾지 못함.
  • 결론 : 차선책 강구

1-2 차선책

  • 강남구 지도를 상권영역에 따라 분리하고, 각각 상권 명을 나타내주어 사용자가 원하는 영역을 찾을 수 있도록 정보를 제공해주면 왼쪽의 사이드바에서 선택란에서 상권 명을 선택이 가능하도록 구현
  • 해당 지도에는 확대/축소 기능이 필요
  • 사용자는 상권 명(영역선택), 시간대 선택, 분기 선택 후, 나머지 변수들은 사용자가 직접 slider를 사용하여 값을 지정하며 예측 모델을 임의로 조절하는 기능도 구현 예정

+ 필요 과제

  • 세부 기능들을 구현하기 위한 Streamlit 베이스 라인 코드를 먼저 작성해야한다.

2반. MODEL 탐색

2-1 피처 선택 방법

  • 후진제거법을 실시
    • 기초 단계 :
      모든 피처가 포함된 초기 모델에서 피처 임포턴스를 따로 고려하지 않고, 변수들을 하나씩 제거한 뒤 오차가 줄어들면 유지하고 늘어나면 제거.
      이 과정에서 파생변수도 해당 과정에 포함하였고, 파생변수는 파생변수를 만든 기존 칼럼은 삭제하고 진행하였다
      ex : 요일별 생활인구 데이터를 이용하여 평일/주말 생활인구라는 파생변수를 생성했으면 모델에 평일/ 주말 생활인구를 추가할 때 요일별 생활인구 칼럼 7개는 제거
    • 기초 단계 이후 :
      기초 단계에서 오차를 비교적으로 크게 줄였던 피처 5가지는 고정하고 기초 단계와 동일한 과정을 반복함.
  • 습득 정보
    • K-fold를 5에서 10으로 늘렸을 때, 다른 조건이 동일하여도 RMSE 등 오차값이 줄어드는 것을 확인함.
    • 후진제거법을 더이상 오차를 악화시키는 변수가 없을 때까지 실시하였으나, 오히려 1단계에서 특정 파생변수를 적용하여 만들어낸 최저 오차보다 높게 나옴.
    • 특정 파생변수들이 모델에서 얼마나 오차를 줄였는지 확인할 수 있었음.
    • Q-cut 이나 Min-Max Scaling 은 LightGBM 알고리즘에서는 정말 의미가 적은 것을 확인함.
      (이 부분은 이번 경우만 그랬던 것인지 이후에 반드시 확인 필요)
    • 매출 데이터에서 다른 것은 고려하지 않고 단순히 IQR 개념만을 이용하여 이상치를 제거했을 때 약 50퍼센트 감소 효과가 있었으나, 실제 의미가 있는 데이터 제거 행동인지는 미지수임.
  • 결론 : 직접 부딪혀가며 습득한 정보들을 전체 회의에서 언급하고 피처 엔지니어링 과정에 대해 논의하기로 함.

차기 전체 회의(9/18, 월, 수시)

반응형