본문 바로가기

머신러닝5

파이썬과 케라스를 이용한 간단한 딥러닝 + 학교 수업에서 진행한 머신러닝 강의 복습 및 리뷰. 우선 딥러닝의 성능 비교를 위해서 회귀 모형을 만들고, 깊이를 추가해 나가면서 그에 따른 성능(mse, loss)을 비교해 보겠다.    1. 회귀 모형성능의 비교를 위해서 우선 간단한 회귀 모형을 작성한다. 추가로, 분석에 사용할 데이터 셋도 임의로 작성한다.# 0. 사용할 패키지 불러오기import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.metrics import mean_squared_errorimport randomimport tensorflow as tfimport os# 난수 고정np.random.seed(42)r.. 2024. 11. 28.
지도학습 - 주택 가격 회귀 예측모형 / 전처리 + 회귀모형 + KNN 이전에 했던 분류 모형 처럼 이번에는 1990년 캘리포니아 인구 조사의 정보 데이터를 가지고 주택 가격(median House Value)를 예측하는 회귀 모형을 작성한 것을 리뷰한다.  다음은 housing_data(회귀).csv 데이터를 분석에 적합한 형태로 준비하기 위해 수행한 전처리 과정을 정리한 내용이다. 이 전처리 과정을 통해 데이터의 품질을 개선하고, 모델이 안정적으로 학습할 수 있는 환경을 조성하였다.1. 전처리 우선 데이터셋의 각 열에 결측치가 있는지 확인하였다. 결측치는 회귀 모델의 계산을 중단시키거나, 모델 성능을 저하시킬 수 있기 때문에 사전에 처리해야 한다.  결측치가 발견된 수치형 변수(예: total_bedrooms)에 대해 중위수(median)를 사용하여 대체하였다. 중위수를.. 2024. 11. 25.
지도학습 - 대출 승인 결과 분류 예측모형 / 앙상블 이번에는 앞에서한 로지스틱 회귀분석+KNN+Tree+SVM의 모델들의 결과로 투표하는(Voting)방식과, baging - 랜덤 포레스트, boosting - 그레디언트 부스팅을 사용하여 에측해보겠다. 보팅: 서로 다른 모델 결합, 독립적 학습.배깅: 같은 모델을 여러 번 학습(데이터 샘플링), 병렬 학습.부스팅: 약한 모델이 순차적으로 학습하며 오류를 보완, 단계적 학습 8. 앙상블 모형 - Voting( 로지스틱 회귀분석+KNN+Tree+SVM )Voting Classifier는 서로 다른 알고리즘을 결합하여 예측 성능을 높이는 앙상블 기법으로, 데이터의 다양한 특성을 반영하며 일반화 성능을 강화할 수 있다. 서로 다른 알고리즘을 하나의 모델로 묶어 예측 성능을 향상시키며, 개별 모델의 강점을 조합하.. 2024. 11. 23.
지도학습 - 대출 승인 결과 분류 예측모형 / Tree,SVM 이제 남은 Tree모형과 SVM 모형으로 예측 후, 해당 모형들을 이용한 앙상블모형을 작성하겠다. 6.  Tree 이번에는 결정 트리(Decision Tree) 모델을 사용한 대출 승인 예측 사례를 다룬다. 트리 모형은 데이터를 여러 특성을 기준으로 분류하는 알고리즘으로, 분할을 통해 예측을 수행하는 구조를 가지고 있다. 이번 예측 결과로 훈련 세트에서는 100%의 정확도를 보여, 모델이 훈련 데이터에 완벽히 맞춰졌음을 확인했다. 이는 트리 모형의 특성상 과적합이 발생하기 쉬운 점을 보여준다. 테스트 세트에서는 약 89.46%의 정확도를 기록했으며, 훈련 데이터 대비 테스트 성능이 다소 낮아 모델이 훈련 데이터에 과도하게 적합되어 일반화 성능이 저하될 가능성을 시사한다.from sklearn.tree i.. 2024. 11. 14.
지도학습 - 대출 승인 결과 분류 예측모형 / 전처리, 로지스틱 회귀모형, KNN 이 글은 머신러닝 강의 과제인 분류 알고리즘을 사용한 예측모형들을 작성한 것으로, 개별 신청자 세부 정보, 재무 지표 및 대출 관련 요인을 기반으로 대출 승인 결과(loan_status)를 예측한다. 분류- 로지스틱 회귀분석, KNN,Tree,SVM,Ensemble(1.로지스틱 회귀분석+KNN+Tree+SVM, 2.Random frest, 3.Boosting)을 사용할 것이다.  사용 환경은 GoogleColab 환경을 사용하여 머신러닝 지도학습을 진행함. 1. 데이터 준비import pandas as pdimport iofrom google.colab import files# 파일 업로드uploaded = files.upload()# 파일 읽기df = pd.read_csv(io.BytesIO(uploa.. 2024. 11. 13.