회의정리
1.데이터 전처리의 건 :
- 분반별 최종 데이터프레임 제작을 위하여 각 파트별 전처리 진행 중
- 결론 : 처리 완료(9/11)
2. 역할 분담의 건 :
- 분반1 : 상권 분류
- 기능별 상권 분류의 각 상권 기준 최종 정의
- 집객시설을 중심으로 아파트 수 등과 같은 피처 추가 선정 및 데이터 재수집
- 다양한 사례의 상관분석 실시 후 유의미한 상관분석 결과는 공유
- 집객시설 데이터에서 다량의 피처 제거
- +
배후지 데이터 처리
고민 : 배후지 데이터 중 아파트 데이터 추가- 근거 : 골목상권(상권+상권배후지 데이터) 로 상관분석 실시 결과, 상권배후지 데이터 중 아파트 데이터에서 0.6~0.7 의 높은 상관관계 확인
- +
추가할 feature
논의 : 보류(모델 결과에 따라) - + 개별 결측치를 확인 후 각각 다르게 처리
- 전체 기간 데이터가 결측치인 경우 > 0 으로 처리
- 전체 기간 데이터 중에 존재하는 경우 > 해당 값으로 대체
- 결론 : 분반1 데이터 처리 및 상권 분류 완료
- 분반2 : 지하철/버스 데이터 처리
상권 영역으로 부터의 지하철/버스 데이터를 얼만큼의 반경의 데이터들을 포함할 것인지=> 폐기- + 폐기 사유 : 기존 선행연구들은 각 편의점 점포마다의 상권분석을 실시하였으나, 우리 프로젝트에서 확보한 데이터로는 위와 같은 연구가 불가능함. 또한, 현행 상권분석서비스는 반경으로 정한 상권 영역에서 현재의 다각형 모양으로 기준을 바꾸었고, 그 취지가 있음을 이해하고 기존의
상권분석서비스의 상권(폴리곤 데이터)을 이용
하여 해당 상권을 기준으로 사용하기로 결정 - + 상권별 지하철역/버스 정류장/각 승하차 승객수 컬럼 추가하기
- 결론 : 분반2 데이터 처리 완료
3. K-means Clustering(기능별 상권 분류) 관련 건
- k-means clustering도 target과 가장 연관있는 변수를 기준으로 한다길래 상관분석 heatmap을 그려보았으나 종속변수인 시간대별 매춝과 상관관계가 유의미하게 나오는 피처가 없었음(0.6 이상이 없음)
- 결론 : 일단 도메인 지식을 이용한 기준으로 여러 피처로 상권을 나누어 상관분석 해보기로 결정
- + 상권분류가 유의미하게 나오지 않으면 현재 상권분석서비스의 4분류체계를 차용하는 것이 최선이라는 의견
- 추가 업무 : 분반 1,2 피처 종류 줄이기, 분반 1 새로운 피처 추가 및 그에따른 데이터 찾기
- => 기존 상권분석서비스의 4분류 체계를 이용하는 것으로 결정
4. 모델링 관련
- 최종 데이터프레임 인코딩 건(분기/시간대별 인코딩 완료)
- 현재 우리 프로젝트 모델의 y변수는 매출으로 데이터는 시간대별로 6개로 나뉘어져있음. 그에따라 데이터를 상권의 시간대별 매출로 한 행을 구성하였음.
- 원-핫인코딩 : 다중공선성 고려하여 한 개의 feature 탈락(100x 와 1000의 차이)
- 종류가 4개인 분기의 경우 4열으로 원-핫인코딩을 하게되면, 머신러닝 모델에서 다른 분기의 데이터를 인식하여 설명하려는 시도를 한다는 이론이 있어 안전하게 n-1 인 3열으로 인코딩
- 파생변수는 baseline Model 이 나온 후 테스트를 반복하면서 추가/삭제하기로 결정
- 모델링 관련 피드백
- 모델이 여러 개일수록 좋다는 의견 있었음. 하나의 모델로 강남의 여러 상권에 전부 적용하는 것은 어렵기 때문임.
- 현실적으로 데이터에 한계가 있으면 분류, 범주를 분리해서 모델링하면 정확도가 높아질 것.
- 통계 분석과 모델 선정 결과가 다를 수 있으므로 .. 모델도 LightBGM 등 하나만 으로 한정하여 그 모델에서 피처를 조절해가며 모델을 개선하는 것을 추천
- 결론 : 최초에 가장 러프하게 모델을 잡아서 실험적으로 테스트하며 모델 수정하기로 결정
차기 전체 회의(9/12, 화, 수시)
- 사전 준비
- LightGBM, RandomSearchCV 파라미터 스터디
- 결정트리 모델 기반의 하이퍼파라미터
- 평가지표 종류와 특징 스터디
- neg_MSE, MSE, RMSE 등..
- LightGBM, RandomSearchCV 파라미터 스터디
반응형
'프로젝트 > (세미)강남구 지역 상권 기반 시간대별 편의점 매출 예측' 카테고리의 다른 글
8. 프로젝트 회의 정리(09.13) (0) | 2023.09.13 |
---|---|
7. 프로젝트 회의 정리(09.12) (0) | 2023.09.12 |
좌표 데이터(.shp) -4 영역 내 좌표 개수 세기 / 해당 좌표 출력하기 (0) | 2023.09.10 |
좌표 데이터(.shp) -3 반경 내 좌표 개수 세기 (0) | 2023.09.09 |
5. 프로젝트 회의 정리(09.08) (0) | 2023.09.08 |