본문 바로가기
프로젝트/(세미)강남구 지역 상권 기반 시간대별 편의점 매출 예측

9. 프로젝트 회의 정리(09.14)

by 규딩코딩 2023. 9. 14.

회의정리

1. 모델링 실시의 건

  • 결론 : 최초에 가장 러프하게 모델을 잡아서 실험적으로 테스트하며 모델 수정하기로 결정

2. 모델 제작의 건

2-1 성과

  • 피처 엔지니어링를 통한 모델 평가 수치 개선(진행 중)
    • Step 01. 면적당 변환 (완료)
    • Step 02. 이상치 / 결측치 확인 — 배후지 데이터 결측값 채우기 (완료)
    • Step 03. 범주형 데이터 인코딩 검토(완료)
    • Step 04. 숫치형 데이터 스케일링(이상치 제거 필요)(완료)
      Step 05. 수치형 데이터 분포 확인(완료)
    • Step 06. 변수 간 관계 확인 후 차원 축소 및 파생 변수 생성(완료)
  • 결론 :
    1. LightGBM에서의 스케일링은 효과가 미미한 것을 확인하였고, 피처 엔지니어링에서는 차원 축소와 파생 변수를 중점적으로 실시하여 여러 경우의 수를 조합하여 가장 RMSE가 낮은 모델을 선택하기로 의결
    2. 이번에도 분반 1, 2로 나뉘어 따로 범위는 정하지 않고(당장 특정되는 것이 아니라고 판단), 분반별 자유롭게 파생변수를 만들거나 상권분류를 해보면서 RMSE를 최대한 줄인 모델을 비교하여 선택하기로 의결
  • 상권 분류(진행 중)
    • 상관관계 고려 등 현재로서는 통계 수치에 근거한 분류는 어려운 상황, 골목상권과 골목외 상권이 배후지 데이터 유무가 달라서 골목상권 / 골목외 상권으로 나누어 진행
    • 임의로 상권 추가 분류
      • 직장인구 비율, 상주인구 비율 등을 고려하여 진행할지 검토 필요
  • 이상치 처리 : Step02 관련 (완료)
    • 이상치의 비율이 대체로 5% 내외이고, 피처들의 속성을 고려했을 때 이상치도 이상치로서 예측에 영향을 주는 것이 맞다는 판단하에 이상치 제거는 하지 않는 것으로 결정하고 이후에 필요성이 생기면 다시 검토
  • 의도대로 모델링 코드가 잘 작성되었는지 멘토링 피드백 요청
    • 모델 베이스라인 코드는 잘 된 것으로 피드백 받았음.
    • RMSE와 MAE 중 평가 지표 선정관련
      • RMSE는 종속변수의 분포가 치우친 경우에서 좋음. 이상치에 대한 민감도가 오차에 루트가 씌워져 비교적 낮기 때문임
      • MAE는 반대로 분포가 정규하지는 않더라도 다소 고른 경우에 사용하는 것이 좋음. 또한 오차에 대한 단위가 달라지는 것이 없으므로 비교적 직관적으로 파악이 가능하다(ex : 점수에 대한 분포 = 0~100점이라는 한계가 정해져있기도하고, 대체로 고르게 형성되어있기 때문)
  • 파생변수 생성 후 평가 : (진행 중)
  • 로그 변환 후 피처 재검토 : 미실시하는 것으로 (완료)

2-2 향후 과제

  • LigthtGBM이 1만개 이상 데이터가 되지 않을 경우 비추천한다는 의견이 있어, 회귀 모델인 다른 알고리즘을 추가할지 논의 필요
  • 데이터 수가 적기 때문에 LightGBM을 사용하면서 과적합을 방지했다는 것을 어필할 방법 강구(파라미터 등)
  • 임의 상권 분류 관련 논의

차기 전체 회의(9/15, 금, 수시)

  • 참고 -
  1. 9/15 금요일 17시까지 피처엔지니어링 완료하기 (1, 2팀별)
  2. 결과에 따라 업무 진행
  • 하이퍼 파라미터 튜닝을 언제할지는 결과를 보고 결정
  • 17시까지 나온 결과와 RMSE, MAE값, Y변수 매출 분포를 보며 현황 파악
  • 현황이 부족한 것으로 판단되면 주말로 기한 연장하여 월요일 10시에 최종 선정
  1. 월요일부터 스트림릿, PPT 돌입
반응형