반응형 EDA3 탐색적 데이터 분석(EDA)을 통한 가설 설정 및 앞으로의 분석 방향 제안 0. 이전까지 진행상황 국내 항만의 선박 대기율을 개선시키고자 분석을 실시하게 되었음. 물동량 상위 4개의 항만을 분석 후보로 선정함(부산, 광양, 울산, 인천). 해당 항만들의 2022년 데이터를 여러 전처리를 통해 대기율을 계산하였고, 그 결과 울산항이 선정됨. 1. 울산항 분석 실시(출처 : 울산항 통계연감(링크)) - 먼저 울산항 데이터프레임을 보다 면밀히 살펴보고, 다른 데이터들을 추가하여 울산항이 가지고 있는 특징을 파악하고자 했다. 울산은 대한민국의 1위 석유화학 생산지로, 106조원 가치의 석유화학 제품 생산하고 있다. 이러한 울산의 주요 산업 특성상 울산항은 액체화물 처리를 중요하게 생각하고 있다. 여기서 말하는 액체화물이란 Port-MIS 기준 다음의 화물들을 말함. 실제로 항만별 수출.. 2023. 11. 12. 피처 엔지니어링(Feature Engineering) 이란? 프로젝트 진행 중 모델링 파트를 맡게되면서 모델의 예측도와 신뢰성을 어떻게 높이기 위해 많은 고민을 했었는데, 역시나 그 고민들은 분석 선배님들이 겪어간 과정이었다. 이러한 고민들이 모여 "피처 엔지니어링" 이라는 과정이 존재한다는 것을 알게 되었다. 오늘은 모델링 하이퍼 파라미터 튜닝보다 중요한 피처 엔지니어링에 대해 알아보고 고민한 흔적을 남겨보고자 한다(특히 이 Velog를 주로 참고할 예정) 1. 피처엔지니어링이란? 피처엔지니어링이란 무엇인가에 관한 다양한 분들의 의견을 전부 합치면, 모델의 성능 개선을 위한 피처 가공 과정 이라면 전부 피처엔지니어링이라고 부를 수도 있지 않을까 하는 느낌을 받았다.. 사실상 탐색적데이터분석(EDA)이나 데이터 전처리(Data Preprocessing)도 둘의 우.. 2023. 9. 16. 파이썬 머신러닝 배경 지식 & 탐색적 자료 분석 - 이번 글에서는 머신러닝에 대한 기본적인 이해와 필수로 따라오는 탐색적 데이터 분석에 대해 학습하고자 한다. 0. 준비하기 - 이번 코드 실습 데이터는 kaggle의 bike sharing 데이터를 이용할 것이고, 미리 다운받은 경로에서 필요한 데이터를 판다스를 이용해 가져오도록 하자. - 처음 코드는 구글 드라이브를 구글 colab 환경에 연결하기 위하여 필요한 코드를 입력한 것이다. 드라이브를 마운트하면 구글 드라이브 파일 및 디렉토리에 쉽게 액세스할 수 있다. 1. 데이터 확인 - 독립변수 - datetime : 1시간 간격 데이터 수집 - season : 봄/여/가/겨 1,2,3,4 - holiday : 0 공휴일 아님, 1 공휴일 - workingday : 0 평일이 아님, 1: 평일 - we.. 2023. 8. 16. 이전 1 다음 반응형