본문 바로가기
반응형

머신러닝10

피처 엔지니어링(Feature Engineering) 이란? 프로젝트 진행 중 모델링 파트를 맡게되면서 모델의 예측도와 신뢰성을 어떻게 높이기 위해 많은 고민을 했었는데, 역시나 그 고민들은 분석 선배님들이 겪어간 과정이었다. 이러한 고민들이 모여 "피처 엔지니어링" 이라는 과정이 존재한다는 것을 알게 되었다. 오늘은 모델링 하이퍼 파라미터 튜닝보다 중요한 피처 엔지니어링에 대해 알아보고 고민한 흔적을 남겨보고자 한다(특히 이 Velog를 주로 참고할 예정) 1. 피처엔지니어링이란? 피처엔지니어링이란 무엇인가에 관한 다양한 분들의 의견을 전부 합치면, 모델의 성능 개선을 위한 피처 가공 과정 이라면 전부 피처엔지니어링이라고 부를 수도 있지 않을까 하는 느낌을 받았다.. 사실상 탐색적데이터분석(EDA)이나 데이터 전처리(Data Preprocessing)도 둘의 우.. 2023. 9. 16.
머신러닝 코드 실습 - 부스팅(GBM, XGBoost, LightGBM) - 2 - 이번 글에서는 이전 글에 이어서 LightGBM에 대해서 알아보고 실습하도록 하겠다. 2023.08.26 - [IT & 개발공부/파이썬(Python)] - 머신러닝 코드 실습 - 부스팅(GBM, XGBoost, LightGBM) 3. LightGBM - XGBoost는 매우 뛰어나지만, GridSearchCV로 하이퍼 파라미터 튜닝을 수행하다 보면 여전히 학습 시간이 오래 걸리기 때문에 많은 파라미터를 튜닝하기에 어려움을 겪을 수밖에 없다. LightGBM 은 이미 이름에서부터 알 수 있다시피 XGBoost보다 학습에 걸리는 시간이 훨씬 적고 메모리 사용량도 상대적으로 적다. 물론 그로인해 성능이 떨어지는 것도 아니다. 그나마 단점이라고 알려진 것은 적은 데이터 세트에서 과적합 발생이 쉽다는 것이다... 2023. 8. 27.
머신러닝 코드 실습 - 부스팅(GBM, XGBoost, LightGBM) - 1 - 이번 글에서는 Ensemble의 Boosting 에서 영향을 받은 여러 알고리즘들에 대하여 학습을 진행해보도록 하겠다. 1. GBM(Gradient Boosting Machine) - 부스팅 알고리즘은 여러 개의 약한 학습기(weak learner)를 결합하여 강력한 앙상블 모델을 생성하는 알고리즘이다. GBM은 데이터의 이전 학습기에서의 오차를 보완하도록 다음 학습기를 학습시키는 방식으로 동작한다. 쉽게말해, 이전 학습기의 오차를 줄이기 위해 새로운 학습기를 추가해 나가는 방식으로 모델을 개선시킨다. 이때 각 학습기는 이전 학습기들이 만든 오차의 경사(gradient)를 활용하여 더 나은 예측을 하도록 업데이트된다. - GBM 은 CART 기반의 다른 알고리즘과 마찬가지로 분류와 회귀 모두 가능하다.. 2023. 8. 26.
머신러닝 코드 실습 - 앙상블 학습(보팅, 배깅) 2023.08.21 - [IT & 개발공부/파이썬(Python)] - 머신러닝 알고리즘(선형회귀, 결정트리 등) 이해하기 머신러닝 알고리즘(선형회귀, 결정트리 등) 이해하기 - 이번 글에서는 다양한 머신러닝 알고리즘 중 몇가지들을 배워보도록 하겠다. 1. 선형회귀 더보기 * 회귀분석이란 - 일단 회귀분석을 왜 하는지 알아야 앞으로 내용들도 섞이지 않을 것이다. 회 bmil2011s.tistory.com - 이전 글에서 간단히 언급만 하고 넘어갔던 앙상블 알고리즘의 보팅 코드 실습을 해보고자 한다. - 보팅 방식의 앙상블을 이용하여 위스콘신 유방암 데이터를 바탕으로 예측 분석을 실시한다. 1. 보팅(Voting) 1-1. 데이터 로딩 및 확인하기 - 다음의 코드와 같이 작성하여 사이킷런의 load_brea.. 2023. 8. 25.
데이터를 함수를 이용하여 불러오기(결정 트리 실습까지) - 이번 글에서는 데이터를 함수를 사용해서 불러오는 실습을 해보고자한다. - 데이터를 불러오는 것만 하면 아쉬우니, 실제로 불러온 데이터를 결정 트리 알고리즘으로 머신러닝 실습해보는 것을 포함한다. - 오늘의 컨셉 : ①데이터를 함수를 이용하여 불러온 뒤, ②해당 데이터로 머신러닝 실습 1. 데이터 확인하기 - 이번 글에서 사용할 데이터는 UCI 머신러닝 리포지토리에서 제공하는 사용자 행동인식 데이터 세트(human activity recongnition using smartphones data set)이며, 이 데이터 세트에 대한 예측 분류를 수행할 것이다. - 해당 데이터는 30명에게 스마트폰 센서를 장착한 뒤 사람의 동작과 관련된 여러 가지 피처를 수집한 데이터이다. - 피처는 모두 561개이며 피.. 2023. 8. 23.
반응형