회의정리
1. 모델링 실시의 건
- 결론 : 최초에 가장 러프하게 모델을 잡아서 실험적으로 테스트하며 모델 수정하기로 결정
2. 모델 제작의 건
2-1 성과
- 피처 엔지니어링를 통한 모델 평가 수치 개선(진행 중)
- Step 01. 면적당 변환 (완료)
- Step 02. 이상치 / 결측치 확인 — 배후지 데이터 결측값 채우기 (완료)
- 수치형 데이터 컬럼들 3분할하여 시각화 및 이상치 검토
- 통합 데이터 프레임 결측치 해결★
-
더보기- 각 컬럼별 이상치 처리를 위한 시각화 과정에서, 골목상권에만 존재하는 배후지 데이터에 결측치가 존재하였음을 뒤늦게 알게 됨(2472-2400 = 72개)
- BoxPlot 그래프에서 특정 피처들의 시각화가 안되었기 때문. 그 원인을 거슬러 올라가던 중에 결측치 발견.
- 해당 데이터는 특정 상권의 배후지(반경 200m라고 함)의 아파트 가격대별 세대수를 수집한 것이어서, 직접 추가하거나 애초에 제공받은 RawData에서 결측치가 존재했던 것이므로 결측치를 “대체”하는 것으로 의결
- 대체 데이터 선정에서는 컬럼별 mean VS median 으로 이견이 있었으나, 분포(히스토그램은 그려짐)를 확인해본 결과 이상치 비율이 높지 않아서, 컬럼별 mean 값으로 결측치를 채움.
-
- Step 03. 범주형 데이터 인코딩 검토(완료)
- Step 04. 숫치형 데이터 스케일링(이상치 제거 필요)
Step 05. 수치형 데이터 분포 확인- 로그 변환으로 방향 설정
- Step 06. 변수 간 관계 확인 후 차원 축소 및 파생 변수 생성
- 상권 분류(진행 중)
- 상관관계 고려 등 현재로서는 통계 수치에 근거한 분류는 어려운 상황, 골목상권과 골목외 상권이 배후지 데이터 유무가 달라서 골목상권 / 골목외 상권으로 나누어 진행
- 임의로 상권 추가 분류
- 직장인구 비율, 상주인구 비율 등을 고려하여 진행할지 검토 필요
- 이상치 처리 : Step02 관련 (완료)
- 이상치의 비율이 대체로 5% 내외이고, 피처들의 속성을 고려했을 때 이상치도 이상치로서 예측에 영향을 주는 것이 맞다는 판단하에 이상치 제거는 하지 않는 것으로 결정하고 이후에 필요성이 생기면 다시 검토
2-2 향후 과제
- LigthtGBM이 1만개 이상 데이터가 되지 않을 경우 비추천한다는 의견이 있어, 회귀 모델인 다른 알고리즘을 추가할지 논의 필요
- 데이터 수가 적기 때문에 LightGBM을 사용하면서 과적합을 방지했다는 것을 어필할 방법 강구(파라미터 등)
- 의도대로 모델링 코드가 잘 작성되었는지 멘토링 피드백 요청
- 파생변수 생성 후 평가
- 로그 변환 후 피처 재검토
- 임의 상권 분류 관련 논의
차기 전체 회의(9/14, 목, 수시)
반응형
'프로젝트 > (세미)강남구 지역 상권 기반 시간대별 편의점 매출 예측' 카테고리의 다른 글
10. 프로젝트 회의 정리(09.15) (0) | 2023.09.15 |
---|---|
9. 프로젝트 회의 정리(09.14) (0) | 2023.09.14 |
7. 프로젝트 회의 정리(09.12) (0) | 2023.09.12 |
6. 프로젝트 회의 정리(09.11, 주말 포함) (0) | 2023.09.11 |
좌표 데이터(.shp) -4 영역 내 좌표 개수 세기 / 해당 좌표 출력하기 (0) | 2023.09.10 |