본문 바로가기
프로젝트/(세미)강남구 지역 상권 기반 시간대별 편의점 매출 예측

6. 프로젝트 회의 정리(09.11, 주말 포함)

by 규딩코딩 2023. 9. 11.

회의정리

1.데이터 전처리의 건 :

  • 분반별 최종 데이터프레임 제작을 위하여 각 파트별 전처리 진행 중
  • 결론 : 처리 완료(9/11)

2. 역할 분담의 건 :

  • 분반1 : 상권 분류
    • 기능별 상권 분류의 각 상권 기준 최종 정의
    • 집객시설을 중심으로 아파트 수 등과 같은 피처 추가 선정 및 데이터 재수집
    • 다양한 사례의 상관분석 실시 후 유의미한 상관분석 결과는 공유
    • 집객시설 데이터에서 다량의 피처 제거
    • + 배후지 데이터 처리 고민 : 배후지 데이터 중 아파트 데이터 추가
      • 근거 : 골목상권(상권+상권배후지 데이터) 로 상관분석 실시 결과, 상권배후지 데이터 중 아파트 데이터에서 0.6~0.7 의 높은 상관관계 확인
    • + 추가할 feature 논의 : 보류(모델 결과에 따라)
    • + 개별 결측치를 확인 후 각각 다르게 처리
      • 전체 기간 데이터가 결측치인 경우 > 0 으로 처리
      • 전체 기간 데이터 중에 존재하는 경우 > 해당 값으로 대체
    • 결론 : 분반1 데이터 처리 및 상권 분류 완료

 

  • 분반2 : 지하철/버스 데이터 처리
    • 상권 영역으로 부터의 지하철/버스 데이터를 얼만큼의 반경의 데이터들을 포함할 것인지 => 폐기
    • + 폐기 사유 : 기존 선행연구들은 각 편의점 점포마다의 상권분석을 실시하였으나, 우리 프로젝트에서 확보한 데이터로는 위와 같은 연구가 불가능함. 또한, 현행 상권분석서비스는 반경으로 정한 상권 영역에서 현재의 다각형 모양으로 기준을 바꾸었고, 그 취지가 있음을 이해하고 기존의 상권분석서비스의 상권(폴리곤 데이터)을 이용하여 해당 상권을 기준으로 사용하기로 결정
    • + 상권별 지하철역/버스 정류장/각 승하차 승객수 컬럼 추가하기
    • 결론 : 분반2 데이터 처리 완료

3. K-means Clustering(기능별 상권 분류) 관련 건

  • k-means clustering도 target과 가장 연관있는 변수를 기준으로 한다길래 상관분석 heatmap을 그려보았으나 종속변수인 시간대별 매춝과 상관관계가 유의미하게 나오는 피처가 없었음(0.6 이상이 없음)
  • 결론 : 일단 도메인 지식을 이용한 기준으로 여러 피처로 상권을 나누어 상관분석 해보기로 결정
  • + 상권분류가 유의미하게 나오지 않으면 현재 상권분석서비스의 4분류체계를 차용하는 것이 최선이라는 의견
  • 추가 업무 : 분반 1,2 피처 종류 줄이기, 분반 1 새로운 피처 추가 및 그에따른 데이터 찾기

  • => 기존 상권분석서비스의 4분류 체계를 이용하는 것으로 결정

4. 모델링 관련

  • 최종 데이터프레임 인코딩 건(분기/시간대별 인코딩 완료)
    • 현재 우리 프로젝트 모델의 y변수는 매출으로 데이터는 시간대별로 6개로 나뉘어져있음. 그에따라 데이터를 상권의 시간대별 매출로 한 행을 구성하였음.
    • 원-핫인코딩 : 다중공선성 고려하여 한 개의 feature 탈락(100x 와 1000의 차이)
      • 종류가 4개인 분기의 경우 4열으로 원-핫인코딩을 하게되면, 머신러닝 모델에서 다른 분기의 데이터를 인식하여 설명하려는 시도를 한다는 이론이 있어 안전하게 n-1 인 3열으로 인코딩
    • 파생변수는 baseline Model 이 나온 후 테스트를 반복하면서 추가/삭제하기로 결정
  • 모델링 관련 피드백
    • 모델이 여러 개일수록 좋다는 의견 있었음. 하나의 모델로 강남의 여러 상권에 전부 적용하는 것은 어렵기 때문임.
    • 현실적으로 데이터에 한계가 있으면 분류, 범주를 분리해서 모델링하면 정확도가 높아질 것.
    • 통계 분석과 모델 선정 결과가 다를 수 있으므로 .. 모델도 LightBGM 등 하나만 으로 한정하여 그 모델에서 피처를 조절해가며 모델을 개선하는 것을 추천
  • 결론 : 최초에 가장 러프하게 모델을 잡아서 실험적으로 테스트하며 모델 수정하기로 결정

차기 전체 회의(9/12, 화, 수시)

  • 사전 준비
    • LightGBM, RandomSearchCV 파라미터 스터디
      • 결정트리 모델 기반의 하이퍼파라미터
    • 평가지표 종류와 특징 스터디
      • neg_MSE, MSE, RMSE 등..

 

반응형