반응형 프로젝트45 탐색적 데이터 분석(EDA)을 통한 가설 설정 및 앞으로의 분석 방향 제안 0. 이전까지 진행상황 국내 항만의 선박 대기율을 개선시키고자 분석을 실시하게 되었음. 물동량 상위 4개의 항만을 분석 후보로 선정함(부산, 광양, 울산, 인천). 해당 항만들의 2022년 데이터를 여러 전처리를 통해 대기율을 계산하였고, 그 결과 울산항이 선정됨. 1. 울산항 분석 실시(출처 : 울산항 통계연감(링크)) - 먼저 울산항 데이터프레임을 보다 면밀히 살펴보고, 다른 데이터들을 추가하여 울산항이 가지고 있는 특징을 파악하고자 했다. 울산은 대한민국의 1위 석유화학 생산지로, 106조원 가치의 석유화학 제품 생산하고 있다. 이러한 울산의 주요 산업 특성상 울산항은 액체화물 처리를 중요하게 생각하고 있다. 여기서 말하는 액체화물이란 Port-MIS 기준 다음의 화물들을 말함. 실제로 항만별 수출.. 2023. 11. 12. 빅쿼리에 데이터 업로드(적재)하는 방법 - 3가지 오늘은 향후에 풀스택 데이터 전문가가 되기 위해 필수적으로 요구되는 지식인 클라우드, 그중에서도 구글빅쿼리에 대해서 알아보고 직접 실습해보는 글을 작성해보도록 하겠다. 1. 구글 빅쿼리 구글 빅쿼리 는 비용 효율성이 뛰어난 서버리스 엔터프라이즈 데이터 웨어하우스로, 클라우드 전반에서 작동하며 데이터에 맞게 확장됩니다. 기본 제공 ML/AI 및 BI를 사용하여 대규모로 유용한 정보를 도출할 수 있다고~ 한다. 특히 구글 애널리틱스를 이용하여 데이터를 쌓는 회사는 GA 데이터를 빅쿼리에 연동하여 보는 경우가 많다고한다. 한편 GA에서 제공하는 보고서에는 데이터 요약만 보여주기 떄문에 개별 데이터를 뜯어보기가 어려운데, SQL 쿼리를 이용하여 개별 데이터를 분석하고 싶을 때 빅쿼리를 연동한다면 ? 개별 데이터.. 2023. 11. 11. 좌표에 대하여 ...(EPSG 5181 6179 4326 등) 보호되어 있는 글 입니다. 2023. 10. 31. 랜덤포레스트 회귀(RandomForestRegressor)에서의 평가 지표 선택 회귀모형에서의 평가 지표 선택은 언제나 어렵고 애매한 측면이 있는 것 같다. 이번 프로젝트에서는 구별 쓰레기 데이터는 존재하나 행정동별 쓰레기 데이터는 존재하지 않아서 "행정동별 쓰레기 배출량 데이터(PET, CAN) 예측" 이 필요하게 되었다. 여러 머신러닝 모델이 있었지만 특히 물리적으로 남은 시간을 중점으로 학습 가능성을 고려하고, 데이터의 수가 매우 작은 것을 고려하여 랜덤포레스트 회귀로 결정하게 되었다. 과정에서 당연하게도 회귀 모형의 평가지표를 무엇으로 할지에 대한 고려가 필요하게 되었고, 관련된 학습 내용을 이 글에서 정리해보도록 하겠다. 1. 먼저 Y 데이터의 분포를 확인 1-1 PET 1-1-1 시각화 및 왜도 점검 - 분포의 왜도 정도가 심하거나, 이상치가 많으면 RMSE 경우에는 이상.. 2023. 10. 19. 공모전 참여 케이스 스터디 -3 (일회용품 쓰레기 감소를 위한 다회용기 렌탈 사업 비즈니스 모델 개발) 본 게시글은 2021 빅데이터캠퍼스 공모전 수상작 중 하나인 " 일회용품 쓰레기 감소를 위한 다회용기 렌탈 사업 비즈니스 모델 개발 " 과제 발표 자료를 토대로 케이스 스터디한 것입니다.(출처 : 링크) 1. 목적 및 문제정의 파트 일회용 플라스틱 자체를 줄여 쓰레기 문제의 근본적인 해결책을 제시해야 한다. 일회용 플라스틱 감축을 위해서는 일회용, 재사용이 아닌, 다회용, 재사용으로써 플라스틱 생산과 소비 시스템의 전면적인 재설계가 필요하다. ∴ 음식점과 소비자, 세척업체와 배달앱이 자치단체와 가치소비를 매개로 연결된 다회용기 비즈니스 모델을 제안 => 단순히 특정 주체가 푸시하는 방식이 아니라 이해관계자들 모두의 노력이 필요하며 이를 비즈니스 모델로 연결하여 수익성을 고려한 것이 인상적인 부분이었다. .. 2023. 10. 6. 이전 1 2 3 4 5 6 ··· 9 다음 반응형