회의정리

1반. Streamlit 구현

1-1 기존 기획

기획했었던 지도 위의 영역선택을 기술적으로 해결할 수 있는 방안을 찾지 못함.
결론 : 차선책 강구

1-2 차선책

강남구 지도를 상권영역에 따라 분리하고, 각각 상권 명을 나타내주어 사용자가 원하는 영역을 찾을 수 있도록 정보를 제공해주면 왼쪽의 사이드바에서 선택란에서 상권 명을 선택이 가능하도록 구현
해당 지도에는 확대/축소 기능이 필요
사용자는 상권 명(영역선택), 시간대 선택, 분기 선택 후, 나머지 변수들은 사용자가 직접 slider를 사용하여 값을 지정하며 예측 모델을 임의로 조절하는 기능도 구현 예정

+ 필요 과제

세부 기능들을 구현하기 위한 Streamlit 베이스 라인 코드를 먼저 작성해야한다.

2반. MODEL 탐색

2-1 피처 선택 방법

후진제거법을 실시
- 기초 단계 :
  모든 피처가 포함된 초기 모델에서 피처 임포턴스를 따로 고려하지 않고, 변수들을 하나씩 제거한 뒤 오차가 줄어들면 유지하고 늘어나면 제거.
  이 과정에서 파생변수도 해당 과정에 포함하였고, 파생변수는 파생변수를 만든 기존 칼럼은 삭제하고 진행하였다
  ex : 요일별 생활인구 데이터를 이용하여 평일/주말 생활인구라는 파생변수를 생성했으면 모델에 평일/ 주말 생활인구를 추가할 때 요일별 생활인구 칼럼 7개는 제거
- 기초 단계 이후 :
  기초 단계에서 오차를 비교적으로 크게 줄였던 피처 5가지는 고정하고 기초 단계와 동일한 과정을 반복함.
습득 정보
- K-fold를 5에서 10으로 늘렸을 때, 다른 조건이 동일하여도 RMSE 등 오차값이 줄어드는 것을 확인함.
- 후진제거법을 더이상 오차를 악화시키는 변수가 없을 때까지 실시하였으나, 오히려 1단계에서 특정 파생변수를 적용하여 만들어낸 최저 오차보다 높게 나옴.
- 특정 파생변수들이 모델에서 얼마나 오차를 줄였는지 확인할 수 있었음.
- Q-cut 이나 Min-Max Scaling 은 LightGBM 알고리즘에서는 정말 의미가 적은 것을 확인함.
  (이 부분은 이번 경우만 그랬던 것인지 이후에 반드시 확인 필요)
- 매출 데이터에서 다른 것은 고려하지 않고 단순히 IQR 개념만을 이용하여 이상치를 제거했을 때 약 50퍼센트 감소 효과가 있었으나, 실제 의미가 있는 데이터 제거 행동인지는 미지수임.
결론 : 직접 부딪혀가며 습득한 정보들을 전체 회의에서 언급하고 피처 엔지니어링 과정에 대해 논의하기로 함.

차기 전체 회의(9/18, 월, 수시)

'프로젝트 > (세미)강남구 지역 상권 기반 시간대별 편의점 매출 예측' 카테고리의 다른 글

13. 프로젝트 회의 정리(09.19) (0)	2023.09.19
12. 프로젝트 회의 정리(09.18) (0)	2023.09.18
10. 프로젝트 회의 정리(09.15) (0)	2023.09.15
9. 프로젝트 회의 정리(09.14) (0)	2023.09.14
8. 프로젝트 회의 정리(09.13) (0)	2023.09.13

데이터 전문가의 메모장

11. 프로젝트 회의 정리(09.16-17)

회의정리

1반. Streamlit 구현

1-1 기존 기획

1-2 차선책

2반. MODEL 탐색

2-1 피처 선택 방법

차기 전체 회의(9/18, 월, 수시)

'프로젝트 > (세미)강남구 지역 상권 기반 시간대별 편의점 매출 예측' 카테고리의 다른 글

티스토리툴바

11. 프로젝트 회의 정리(09.16-17)

회의정리

1반. Streamlit 구현

1-1 기존 기획

1-2 차선책

2반. MODEL 탐색

2-1 피처 선택 방법

차기 전체 회의(9/18, 월, 수시)

'프로젝트 > (세미)강남구 지역 상권 기반 시간대별 편의점 매출 예측' 카테고리의 다른 글

관련글

티스토리툴바