본문 바로가기
프로젝트/(세미)강남구 지역 상권 기반 시간대별 편의점 매출 예측

8. 프로젝트 회의 정리(09.13)

by 규딩코딩 2023. 9. 13.

회의정리

1. 모델링 실시의 건

  • 결론 : 최초에 가장 러프하게 모델을 잡아서 실험적으로 테스트하며 모델 수정하기로 결정

2. 모델 제작의 건

2-1 성과

  • 피처 엔지니어링를 통한 모델 평가 수치 개선(진행 중)
    • Step 01. 면적당 변환 (완료)
    • Step 02. 이상치 / 결측치 확인 — 배후지 데이터 결측값 채우기 (완료)
      • 수치형 데이터 컬럼들 3분할하여 시각화 및 이상치 검토
      • 통합 데이터 프레임 결측치 해결★
        • 더보기
          - 각 컬럼별 이상치 처리를 위한 시각화 과정에서, 골목상권에만 존재하는 배후지 데이터에 결측치가 존재하였음을 뒤늦게 알게 됨(2472-2400 = 72개)
          - BoxPlot 그래프에서 특정 피처들의 시각화가 안되었기 때문. 그 원인을 거슬러 올라가던 중에 결측치 발견.
          - 해당 데이터는 특정 상권의 배후지(반경 200m라고 함)의 아파트 가격대별 세대수를 수집한 것이어서, 직접 추가하거나 애초에 제공받은 RawData에서 결측치가 존재했던 것이므로 결측치를 “대체”하는 것으로 의결
          - 대체 데이터 선정에서는 컬럼별 mean VS median 으로 이견이 있었으나, 분포(히스토그램은 그려짐)를 확인해본 결과 이상치 비율이 높지 않아서, 컬럼별 mean 값으로 결측치를 채움.
    • Step 03. 범주형 데이터 인코딩 검토(완료)
    • Step 04. 숫치형 데이터 스케일링(이상치 제거 필요)
      Step 05. 수치형 데이터 분포 확인
      • 로그 변환으로 방향 설정
    • Step 06. 변수 간 관계 확인 후 차원 축소 및 파생 변수 생성
  • 상권 분류(진행 중)
    • 상관관계 고려 등 현재로서는 통계 수치에 근거한 분류는 어려운 상황, 골목상권과 골목외 상권이 배후지 데이터 유무가 달라서 골목상권 / 골목외 상권으로 나누어 진행
    • 임의로 상권 추가 분류
      • 직장인구 비율, 상주인구 비율 등을 고려하여 진행할지 검토 필요
  • 이상치 처리 : Step02 관련 (완료)
    • 이상치의 비율이 대체로 5% 내외이고, 피처들의 속성을 고려했을 때 이상치도 이상치로서 예측에 영향을 주는 것이 맞다는 판단하에 이상치 제거는 하지 않는 것으로 결정하고 이후에 필요성이 생기면 다시 검토

2-2 향후 과제

  • LigthtGBM이 1만개 이상 데이터가 되지 않을 경우 비추천한다는 의견이 있어, 회귀 모델인 다른 알고리즘을 추가할지 논의 필요
  • 데이터 수가 적기 때문에 LightGBM을 사용하면서 과적합을 방지했다는 것을 어필할 방법 강구(파라미터 등)
  • 의도대로 모델링 코드가 잘 작성되었는지 멘토링 피드백 요청
  • 파생변수 생성 후 평가
  • 로그 변환 후 피처 재검토
  • 임의 상권 분류 관련 논의

차기 전체 회의(9/14, 목, 수시)

반응형