본문 바로가기
반응형

파이썬25

좌표 데이터(.shp) -2 폴리곤 좌표 데이터를 파이썬에서 활용하는 방법 2023.09.06 - [프로젝트/(가제)편의점 시간대별 매출 분석을 통한 BI 제시-영업시간을 중심으로] - 좌표 데이터(.shp) - 1 폴리곤 좌표를 파이썬으로 가져오기 좌표 데이터(.shp) - 1 폴리곤 좌표를 파이썬으로 가져오기 1. 배경 - 해당 프로젝트 게시글을 꾸준히 보고 계시다면 아시겠지만, 혹시 이 글로 처음보시는 분들을 위해 간단요약 - 프로젝트 진행 중 힘들게 해당 지점의 버스정류장 승하차 인구 데이터를 bmil2011s.tistory.com - 이전 글에서는 좌표 데이터 값을 불러오는 정도와 확인하는 간단한 내용을 학습했고, 이번 글에서는 그래서 이 데이터로 뭘 할 수 있는데? 어떻게 써야하는데?라는 질문에 대한 답의 느낌으로 내용을 써보려고 한다. 1. 기존 데이터 프레임과 합.. 2023. 9. 7.
좌표 데이터(.shp) - 1 폴리곤 좌표를 파이썬으로 가져오기 1. 배경 - 해당 프로젝트 게시글을 꾸준히 보고 계시다면 아시겠지만, 혹시 이 글로 처음보시는 분들을 위해 간단요약 - 프로젝트 진행 중 힘들게 해당 지점의 버스정류장 승하차 인구 데이터를 수집하였는데, 정작 프로젝트 최종 합본 데이터프레임에 매칭시켜줄 방법이 없어 다소 안좋은 상황이었다. - 가장 큰 문제는 상권분석 서비스가 요런 상태라는 것이다 ... - 열심히 철저하게 상권을 분류해주신 덕분에 폴리건이 굉장히 다다다다각형인 상황이다. 그래서 좌표를 일일히 따는 것도 꽤나 어려운 상황이었으며, 상권영역에는 영역데이터이나 X, Y좌표 하나만 제공된 상항 - 역으로 생각해보면 상권분석서비스를 제작했을 때 분명 웹페이지에 폴리건을 그린 어떤 좌표 기준 값들이 데이터화 되어 있었을 것이고, 지금도 여전히 .. 2023. 9. 6.
데이터 전처리(버스 승하차 데이터) 0. 데이터 분석 및 이해 - 이번 프로젝트에서 전처리를 담당한 데이터는 버스 정류장 승하차 인원 데이터였다. 내가 담당하게 된 데이터는 사실 처음부터 팀원들의 우려가 많았다. 일단 해당 데이터는 서울시 전체의 버스정류장을 대상으로 하고 있는데, 전처리 조건은 강남구에 속한 데이터만 추출하는 것이었고 분류는... 되어있지 않았기 때문이다. 최악의 상황에는 몇 백개가 될지도 모르는 정류장을 하나 하나 찾아가며 매칭해야될 수도 있는 작업이었다. - 일단 1개의 연도 데이터에 약 47만개 정도의 행이 존재했다. 서울시 정류장별 각 노선의 월별 승하차 데이터였기 때문이다. 정말 막막했는데 데이터를 잘 보니 버스 정류장별 ARS 번호라는 컬럼이 있었다. 각 정류장별 고유번호값이 지정이 되어있었는데, 생각해보니 분.. 2023. 9. 4.
머신러닝 코드 실습 - 부스팅(GBM, XGBoost, LightGBM) - 2 - 이번 글에서는 이전 글에 이어서 LightGBM에 대해서 알아보고 실습하도록 하겠다. 2023.08.26 - [IT & 개발공부/파이썬(Python)] - 머신러닝 코드 실습 - 부스팅(GBM, XGBoost, LightGBM) 3. LightGBM - XGBoost는 매우 뛰어나지만, GridSearchCV로 하이퍼 파라미터 튜닝을 수행하다 보면 여전히 학습 시간이 오래 걸리기 때문에 많은 파라미터를 튜닝하기에 어려움을 겪을 수밖에 없다. LightGBM 은 이미 이름에서부터 알 수 있다시피 XGBoost보다 학습에 걸리는 시간이 훨씬 적고 메모리 사용량도 상대적으로 적다. 물론 그로인해 성능이 떨어지는 것도 아니다. 그나마 단점이라고 알려진 것은 적은 데이터 세트에서 과적합 발생이 쉽다는 것이다... 2023. 8. 27.
머신러닝 코드 실습 - 부스팅(GBM, XGBoost, LightGBM) - 1 - 이번 글에서는 Ensemble의 Boosting 에서 영향을 받은 여러 알고리즘들에 대하여 학습을 진행해보도록 하겠다. 1. GBM(Gradient Boosting Machine) - 부스팅 알고리즘은 여러 개의 약한 학습기(weak learner)를 결합하여 강력한 앙상블 모델을 생성하는 알고리즘이다. GBM은 데이터의 이전 학습기에서의 오차를 보완하도록 다음 학습기를 학습시키는 방식으로 동작한다. 쉽게말해, 이전 학습기의 오차를 줄이기 위해 새로운 학습기를 추가해 나가는 방식으로 모델을 개선시킨다. 이때 각 학습기는 이전 학습기들이 만든 오차의 경사(gradient)를 활용하여 더 나은 예측을 하도록 업데이트된다. - GBM 은 CART 기반의 다른 알고리즘과 마찬가지로 분류와 회귀 모두 가능하다.. 2023. 8. 26.
반응형