본문 바로가기
반응형

Machine Learning5

머신러닝 코드 실습 - 부스팅(GBM, XGBoost, LightGBM) - 2 - 이번 글에서는 이전 글에 이어서 LightGBM에 대해서 알아보고 실습하도록 하겠다. 2023.08.26 - [IT & 개발공부/파이썬(Python)] - 머신러닝 코드 실습 - 부스팅(GBM, XGBoost, LightGBM) 3. LightGBM - XGBoost는 매우 뛰어나지만, GridSearchCV로 하이퍼 파라미터 튜닝을 수행하다 보면 여전히 학습 시간이 오래 걸리기 때문에 많은 파라미터를 튜닝하기에 어려움을 겪을 수밖에 없다. LightGBM 은 이미 이름에서부터 알 수 있다시피 XGBoost보다 학습에 걸리는 시간이 훨씬 적고 메모리 사용량도 상대적으로 적다. 물론 그로인해 성능이 떨어지는 것도 아니다. 그나마 단점이라고 알려진 것은 적은 데이터 세트에서 과적합 발생이 쉽다는 것이다... 2023. 8. 27.
머신러닝 코드 실습 - 부스팅(GBM, XGBoost, LightGBM) - 1 - 이번 글에서는 Ensemble의 Boosting 에서 영향을 받은 여러 알고리즘들에 대하여 학습을 진행해보도록 하겠다. 1. GBM(Gradient Boosting Machine) - 부스팅 알고리즘은 여러 개의 약한 학습기(weak learner)를 결합하여 강력한 앙상블 모델을 생성하는 알고리즘이다. GBM은 데이터의 이전 학습기에서의 오차를 보완하도록 다음 학습기를 학습시키는 방식으로 동작한다. 쉽게말해, 이전 학습기의 오차를 줄이기 위해 새로운 학습기를 추가해 나가는 방식으로 모델을 개선시킨다. 이때 각 학습기는 이전 학습기들이 만든 오차의 경사(gradient)를 활용하여 더 나은 예측을 하도록 업데이트된다. - GBM 은 CART 기반의 다른 알고리즘과 마찬가지로 분류와 회귀 모두 가능하다.. 2023. 8. 26.
머신러닝 코드 실습 - 앙상블 학습(보팅, 배깅) 2023.08.21 - [IT & 개발공부/파이썬(Python)] - 머신러닝 알고리즘(선형회귀, 결정트리 등) 이해하기 머신러닝 알고리즘(선형회귀, 결정트리 등) 이해하기 - 이번 글에서는 다양한 머신러닝 알고리즘 중 몇가지들을 배워보도록 하겠다. 1. 선형회귀 더보기 * 회귀분석이란 - 일단 회귀분석을 왜 하는지 알아야 앞으로 내용들도 섞이지 않을 것이다. 회 bmil2011s.tistory.com - 이전 글에서 간단히 언급만 하고 넘어갔던 앙상블 알고리즘의 보팅 코드 실습을 해보고자 한다. - 보팅 방식의 앙상블을 이용하여 위스콘신 유방암 데이터를 바탕으로 예측 분석을 실시한다. 1. 보팅(Voting) 1-1. 데이터 로딩 및 확인하기 - 다음의 코드와 같이 작성하여 사이킷런의 load_brea.. 2023. 8. 25.
머신러닝 코드 실습 - 결정트리 & 과적합 2023.08.21 - [IT & 개발공부/파이썬(Python)] - 머신러닝 알고리즘(선형회귀, 결정트리 등) 이해하기 머신러닝 알고리즘(선형회귀, 결정트리 등) 이해하기 - 이번 글에서는 다양한 머신러닝 알고리즘 중 몇가지들을 배워보도록 하겠다. 1. 선형회귀 더보기 * 회귀분석이란 - 일단 회귀분석을 왜 하는지 알아야 앞으로 내용들도 섞이지 않을 것이다. 회 bmil2011s.tistory.com - 이전 글에 이어서 머신러닝 알고리즘을 실제 코드로 작성해가며 배워보도록 하겠다. 특히 이번 글에서는 결정트리 모델에 대한 코드 실습을 수행할 예정이다. 1. 모델 학습시키기 - 설정한대로 잘 학습된것으로 보인다. 2. Graphviz 시각화 -사이킷런의 트리 모듈은 Graphviz를 이용하기 위해 ex.. 2023. 8. 22.
머신러닝에서의 데이터 전처리 - 이번 글에서는 머신러닝에서의 데이터 전처리에 관한 내용을 학습하겠다. 이론을 먼저 배우고, 이후에 상세한 코드까지 실습해보도록 하자. HTML 삽입 미리보기할 수 없는 소스 ---이론--- 데이터 엔지니어링 Feature Engineering 중요한 파트 !! 1 . 머신러닝에서의 데이터 정제 데이터 구분 수치형 데이터와 범주형 데이터의 전처리 방법이 다르다. 2 . 수치데이터 데이터 정제 Count Data, Log Transformation, Scaling, Interaction, Selection 2-1 Count Data ex) 사용자별 음악 청취 수, 사용자별 클릭 건수, 리뷰 건수 등(휴먼 계정, 소극적인 계정들의 비율이 있을 것이므로 0건의 개수가 많을 것이다.) Binning에는 단순히.. 2023. 8. 18.
반응형