회의정리
1. 모델링 실시의 건
- 결론 : 최초에 가장 러프하게 모델을 잡아서 실험적으로 테스트하며 모델 수정하기로 결정
2. 모델 제작의 건
2-1 성과
- 피처 엔지니어링를 통한 모델 평가 수치 개선(진행 중)
- Step 01. 면적당 변환 (완료)
- Step 02. 이상치 / 결측치 확인 — 배후지 데이터 결측값 채우기 (완료)
- Step 03. 범주형 데이터 인코딩 검토(완료)
- Step 04. 숫치형 데이터 스케일링(이상치 제거 필요)(완료)
Step 05. 수치형 데이터 분포 확인(완료) - Step 06. 변수 간 관계 확인 후 차원 축소 및 파생 변수 생성(완료)
- 결론 :
- LightGBM에서의 스케일링은 효과가 미미한 것을 확인하였고, 피처 엔지니어링에서는 차원 축소와 파생 변수를 중점적으로 실시하여 여러 경우의 수를 조합하여 가장 RMSE가 낮은 모델을 선택하기로 의결
- 이번에도 분반 1, 2로 나뉘어 따로 범위는 정하지 않고(당장 특정되는 것이 아니라고 판단), 분반별 자유롭게 파생변수를 만들거나 상권분류를 해보면서 RMSE를 최대한 줄인 모델을 비교하여 선택하기로 의결
- 상권 분류(진행 중)
- 상관관계 고려 등 현재로서는 통계 수치에 근거한 분류는 어려운 상황, 골목상권과 골목외 상권이 배후지 데이터 유무가 달라서 골목상권 / 골목외 상권으로 나누어 진행
- 임의로 상권 추가 분류
- 직장인구 비율, 상주인구 비율 등을 고려하여 진행할지 검토 필요
- 이상치 처리 : Step02 관련 (완료)
- 이상치의 비율이 대체로 5% 내외이고, 피처들의 속성을 고려했을 때 이상치도 이상치로서 예측에 영향을 주는 것이 맞다는 판단하에 이상치 제거는 하지 않는 것으로 결정하고 이후에 필요성이 생기면 다시 검토
- 의도대로 모델링 코드가 잘 작성되었는지 멘토링 피드백 요청
- 모델 베이스라인 코드는 잘 된 것으로 피드백 받았음.
- RMSE와 MAE 중 평가 지표 선정관련
- RMSE는 종속변수의 분포가 치우친 경우에서 좋음. 이상치에 대한 민감도가 오차에 루트가 씌워져 비교적 낮기 때문임
- MAE는 반대로 분포가 정규하지는 않더라도 다소 고른 경우에 사용하는 것이 좋음. 또한 오차에 대한 단위가 달라지는 것이 없으므로 비교적 직관적으로 파악이 가능하다(ex : 점수에 대한 분포 = 0~100점이라는 한계가 정해져있기도하고, 대체로 고르게 형성되어있기 때문)
- 파생변수 생성 후 평가 : (진행 중)
- 로그 변환 후 피처 재검토 : 미실시하는 것으로 (완료)
2-2 향후 과제
- LigthtGBM이 1만개 이상 데이터가 되지 않을 경우 비추천한다는 의견이 있어, 회귀 모델인 다른 알고리즘을 추가할지 논의 필요
- 데이터 수가 적기 때문에 LightGBM을 사용하면서 과적합을 방지했다는 것을 어필할 방법 강구(파라미터 등)
- 임의 상권 분류 관련 논의
차기 전체 회의(9/15, 금, 수시)
- 참고 -
- 9/15 금요일 17시까지 피처엔지니어링 완료하기 (1, 2팀별)
- 결과에 따라 업무 진행
- 하이퍼 파라미터 튜닝을 언제할지는 결과를 보고 결정
- 17시까지 나온 결과와 RMSE, MAE값, Y변수 매출 분포를 보며 현황 파악
- 현황이 부족한 것으로 판단되면 주말로 기한 연장하여 월요일 10시에 최종 선정
- 월요일부터 스트림릿, PPT 돌입
반응형
'프로젝트 > (세미)강남구 지역 상권 기반 시간대별 편의점 매출 예측' 카테고리의 다른 글
11. 프로젝트 회의 정리(09.16-17) (0) | 2023.09.17 |
---|---|
10. 프로젝트 회의 정리(09.15) (0) | 2023.09.15 |
8. 프로젝트 회의 정리(09.13) (0) | 2023.09.13 |
7. 프로젝트 회의 정리(09.12) (0) | 2023.09.12 |
6. 프로젝트 회의 정리(09.11, 주말 포함) (0) | 2023.09.11 |