회의 내용 정리
1. 데이터 추가의 건
- 논문을 찾아보니 100건 이하의 데이터로 분석을 수행한 경우도 있었음.
- 데이터가 많고 적은 것은 우리 팀에서 결정해야할 문제로 정해진 답은 없는 듯
- 결론 : 현재 약 300개 데이터는 너무 적은 것으로 판단, 2020년과 2021년 데이터를 추가로 조사하는 것으로 최종 결정
- 발생 업무 : 현재 전처리된 데이터에서 2020년과 2021년 데이터를 추가로 확보, 연도 컬럼을 추가
2. 결측치 데이터 해결의 건
- 현재 추정 매출 데이터에서 상권별 편의점의 평균 매출 산정을 위해 필요한 점포수가 없거나, 아예 상권의 추정 매출 데이터가 없는 상권이 16개나 존재하여 결측치 해결 방법 논의 필요
- 최종 스트림릿 대시보드에 매출금액이 나오지 않는다면 점포수 데이터를 제거하여도 무방하다는 의견
- 결론 :
- 2020년, 2021년 데이터를 살펴보고 해당 상권의 과거 데이터가 존재할 경우 : 다른 연도 데이터를 기준으로 결측치 채움
- 없을 경우 : 2023년 네이버 지도를 활용하여 해당 상권에 존재하는 편의점 개수를 파악하여 해당 데이터로 결측치 채움
- 발생 업무 : 없음, 차기 회의에서 과거 데이터 확인 결과를 바탕으로 추후 논의
- 3. 버스 데이터 전처리의 건
- 버스 데이터에는 가상 정류장도 나와있는데, 이는 버스회사 차고지나 종점을 말하는 듯(네이버지도로 위치 확인)
=> 결정 : 가장 가까운 상권과의 거리가 200미터 초과할 경우 제거, else: 유지 - 버스 데이터에는 중간에 노선이 변경되거나, 폐지되는 경우의 처리
=> 결정 : 앞으로 해당 버스로인한 유동인구가 해당 상권에 발생하지 않는다고 하여도 당시의 매출에 해당 승하차인구가 영향을 주었을 가능성이 있으므로 데이터를 살려 놓기로 결정 - 연도별/분기별/정류장별/시간구간별 로 정류장 하나당 데이터가 한 행이 되도록 전처리
- 발생 업무 : 위 내용 참조
차기 회의(9/4, 월, 18시~)
- 병합된 데이터를 바탕으로 기능적 분류 기준 산정
- 점포수 누락된 데이터 해결 방안 논의
- 기획안 작성(~9/8까지 제출 필요)
반응형
'프로젝트 > (세미)강남구 지역 상권 기반 시간대별 편의점 매출 예측' 카테고리의 다른 글
3. 프로젝트 회의 정리(09.06) (0) | 2023.09.06 |
---|---|
좌표 데이터(.shp) - 1 폴리곤 좌표를 파이썬으로 가져오기 (0) | 2023.09.06 |
2. 프로젝트 회의 정리(09.04-5) (0) | 2023.09.05 |
데이터 전처리(버스 승하차 데이터) (2) | 2023.09.04 |
0. 프로젝트 시작과 사전에 논의된 내용 (0) | 2023.08.31 |