반응형 Python27 머신러닝 코드 실습 - 결정트리 & 과적합 2023.08.21 - [IT & 개발공부/파이썬(Python)] - 머신러닝 알고리즘(선형회귀, 결정트리 등) 이해하기 머신러닝 알고리즘(선형회귀, 결정트리 등) 이해하기 - 이번 글에서는 다양한 머신러닝 알고리즘 중 몇가지들을 배워보도록 하겠다. 1. 선형회귀 더보기 * 회귀분석이란 - 일단 회귀분석을 왜 하는지 알아야 앞으로 내용들도 섞이지 않을 것이다. 회 bmil2011s.tistory.com - 이전 글에 이어서 머신러닝 알고리즘을 실제 코드로 작성해가며 배워보도록 하겠다. 특히 이번 글에서는 결정트리 모델에 대한 코드 실습을 수행할 예정이다. 1. 모델 학습시키기 - 설정한대로 잘 학습된것으로 보인다. 2. Graphviz 시각화 -사이킷런의 트리 모듈은 Graphviz를 이용하기 위해 ex.. 2023. 8. 22. 머신러닝 알고리즘(선형회귀, 결정트리 등) 이해하기 - 이번 글에서는 다양한 머신러닝 알고리즘 중 몇가지들을 배워보도록 하겠다. 1. 선형회귀 더보기 * 회귀분석이란 - 일단 회귀분석을 왜 하는지 알아야 앞으로 내용들도 섞이지 않을 것이다. 회귀분석은 총 4단계의 프로세스가 있다. 1단계 : 두 변수 사이에 선형적 관계가 있다고 강력히 의심될 때, 회귀분석을 실시한다. 아래 식으로 표현되는 선형관계가 존재하는 것으로 이미 가정한다. 2단계 : 적절한 방식으로 수집된 적절한 데이터를 통해서 두 변수 간 선형관계를 가장 잘 설명해주는 직선, 즉 회귀직선을 찾는다. 실제로 두 변수 간에 관계가 있는지는 지금 알 수 없기 때문에, 표본을 추출한다. 표본을 적절하게 추출하는 방식과 회귀직선을 긋는 방법인 최소자승법은 이 글에서는 생략하도록하고 언급만하도록 하겠다... 2023. 8. 21. 머신러닝 모델 평가하기(분류 모델 평가 당뇨 예측 실습) - 머신러닝은 데이터 가공/변환, 모델 학습/예측, 그리고 평가의 프로세스로 구성된다. 앞서 게시한 타이타닉 데이터 실습에서는 모델 예측 성능 평가를 위해 정확도를 이용했다. - 머신러닝 모델은 정확도 외에도 여러 방법으로 예측 성능을 평가할 수 있다. 일반적으로 모델이 분류냐 회귀냐에 따라 여러 종류로 나뉜다. 회귀의 경우 대부분 실제값과 예측값의 오차 평균값에 기반한다. 1. 성능평가 - 회귀 모형 오차의 개념 - 오차는 실제값과 예측값의 차이를 말함, 양의 값과 음의 값이 발생 - 회귀 모형은 오차의 제곱 혹은 절대값의 합이 `최소화되는 라인`을 찾는 것이 목표 - 회귀 모형 성능평가에서 루트를 씌우거나, 절대값을 취하는 이유는 다음의 표 예시를 보면 알 수 있다. 실제값 예측치1 오차1 예측치2 .. 2023. 8. 20. 머신러닝 실습 (타이타닉 생존자 예측) - 이번 글에서는 이전까지 배웠던 기본적인 머신러닝 지식을 이용하여, 주어진 데이터를 이용하여 처음부터 끝까지 실습을 가볍게 실시해보도록 하겠다. 1. 데이터 불러오기 - 다음과 같이 먼저 train data 를 불러오자 2. 데이터 파악 3. 데이터 가공하기 3-1 결측치 처리 - 이전에 확인했던 것처럼 타이타닉 데이터에는 결측치가 많다. 나이는 평균나이로, 나머지는 N 값으로 변경해주자(결측치 처리에 명확한 정답은 없음) 3-2 범주형 데이터 처리 - Sex 나 Embarked는 문제가 없어보이지만, Cabin값은 N이 독보적으로 687건을 기록하고있고, 여러 Cabin이 한꺼번에 기록되는 등 제대로 정리되지 않은 것으로 보인다. - Cabin 의 경우 선실의 등급을 나타내는 것으로 가장 첫 알파벳이.. 2023. 8. 19. 머신러닝에서의 데이터 전처리 - 이번 글에서는 머신러닝에서의 데이터 전처리에 관한 내용을 학습하겠다. 이론을 먼저 배우고, 이후에 상세한 코드까지 실습해보도록 하자. HTML 삽입 미리보기할 수 없는 소스 ---이론--- 데이터 엔지니어링 Feature Engineering 중요한 파트 !! 1 . 머신러닝에서의 데이터 정제 데이터 구분 수치형 데이터와 범주형 데이터의 전처리 방법이 다르다. 2 . 수치데이터 데이터 정제 Count Data, Log Transformation, Scaling, Interaction, Selection 2-1 Count Data ex) 사용자별 음악 청취 수, 사용자별 클릭 건수, 리뷰 건수 등(휴먼 계정, 소극적인 계정들의 비율이 있을 것이므로 0건의 개수가 많을 것이다.) Binning에는 단순히.. 2023. 8. 18. 이전 1 2 3 4 5 6 다음 반응형