본문 바로가기

분류 전체보기20

딥러닝 - 합성곱 신경망, CNN 1. DNN과 이미지, 필터, 패딩 NN(Neural Network)에는 크게 3종류가 있는데, Deep, Convolutional, Recurrent 로 나눌 수 있다. 오늘은 이중에서 Convolution 모형을 설명해 보겠다.  CNN은 특히 시계열이나 이미지를 분석할 떄 쓰인다. 왜 이미지 분석에는 CNN이 쓰이며 DNN은 안되는지 등을 설명해보겠다. 우선은 기존에 알고 있던 DNN으로 이미지를 분석해본다. DNN으로 이미지 분석?  DNN으로 이미지 분석을 하기 위해서, 이미지는 기본적으로 28*28 같이 2차원 행렬이므로, 1차원으로 평탄화해주는 Flatten 과정이 필요하다.    이런식으로 나타낼 수 있다. 하지만 이렇게 차원의 축소가 발생할 경우 픽셀 간 공간적 관계나 패턴이 Flatten 과정에서 사라지게된다 (정보의 손.. 2024. 12. 7.
파이썬과 케라스를 이용한 간단한 딥러닝 + 학교 수업에서 진행한 머신러닝 강의 복습 및 리뷰. 우선 딥러닝의 성능 비교를 위해서 회귀 모형을 만들고, 깊이를 추가해 나가면서 그에 따른 성능(mse, loss)을 비교해 보겠다.    1. 회귀 모형성능의 비교를 위해서 우선 간단한 회귀 모형을 작성한다. 추가로, 분석에 사용할 데이터 셋도 임의로 작성한다.# 0. 사용할 패키지 불러오기import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.metrics import mean_squared_errorimport randomimport tensorflow as tfimport os# 난수 고정np.random.seed(42)r.. 2024. 11. 28.
견고한 데이터 엔지니어링 Chapter 9.5~ 이 글은 스터디 활동에서 진행하는 견고한 데이터 엔지니어링 정리입니다. Fundamentals of Data EngineeringChapter 9. Serving Data for Analytics, Machine Learning, and Reverse ETL Congratulations! You’ve reached the final stage of the data engineering lifecycle—serving data for downstream use cases (see Figure 9-1 … - Selection from Fundamentals of Datawww.oreilly.com   9.5 분석 및 ML을 위한 데이터 서빙 방법 데이터 엔지니어링 분야에서 데이터 분석가와 머신러닝 엔지니어에.. 2024. 11. 25.
지도학습 - 주택 가격 회귀 예측모형 / 전처리 + 회귀모형 + KNN 이전에 했던 분류 모형 처럼 이번에는 1990년 캘리포니아 인구 조사의 정보 데이터를 가지고 주택 가격(median House Value)를 예측하는 회귀 모형을 작성한 것을 리뷰한다.  다음은 housing_data(회귀).csv 데이터를 분석에 적합한 형태로 준비하기 위해 수행한 전처리 과정을 정리한 내용이다. 이 전처리 과정을 통해 데이터의 품질을 개선하고, 모델이 안정적으로 학습할 수 있는 환경을 조성하였다.1. 전처리 우선 데이터셋의 각 열에 결측치가 있는지 확인하였다. 결측치는 회귀 모델의 계산을 중단시키거나, 모델 성능을 저하시킬 수 있기 때문에 사전에 처리해야 한다.  결측치가 발견된 수치형 변수(예: total_bedrooms)에 대해 중위수(median)를 사용하여 대체하였다. 중위수를.. 2024. 11. 25.
지도학습 - 대출 승인 결과 분류 예측모형 / 앙상블 이번에는 앞에서한 로지스틱 회귀분석+KNN+Tree+SVM의 모델들의 결과로 투표하는(Voting)방식과, baging - 랜덤 포레스트, boosting - 그레디언트 부스팅을 사용하여 에측해보겠다. 보팅: 서로 다른 모델 결합, 독립적 학습.배깅: 같은 모델을 여러 번 학습(데이터 샘플링), 병렬 학습.부스팅: 약한 모델이 순차적으로 학습하며 오류를 보완, 단계적 학습 8. 앙상블 모형 - Voting( 로지스틱 회귀분석+KNN+Tree+SVM )Voting Classifier는 서로 다른 알고리즘을 결합하여 예측 성능을 높이는 앙상블 기법으로, 데이터의 다양한 특성을 반영하며 일반화 성능을 강화할 수 있다. 서로 다른 알고리즘을 하나의 모델로 묶어 예측 성능을 향상시키며, 개별 모델의 강점을 조합하.. 2024. 11. 23.
지도학습 - 대출 승인 결과 분류 예측모형 / Tree,SVM 이제 남은 Tree모형과 SVM 모형으로 예측 후, 해당 모형들을 이용한 앙상블모형을 작성하겠다. 6.  Tree 이번에는 결정 트리(Decision Tree) 모델을 사용한 대출 승인 예측 사례를 다룬다. 트리 모형은 데이터를 여러 특성을 기준으로 분류하는 알고리즘으로, 분할을 통해 예측을 수행하는 구조를 가지고 있다. 이번 예측 결과로 훈련 세트에서는 100%의 정확도를 보여, 모델이 훈련 데이터에 완벽히 맞춰졌음을 확인했다. 이는 트리 모형의 특성상 과적합이 발생하기 쉬운 점을 보여준다. 테스트 세트에서는 약 89.46%의 정확도를 기록했으며, 훈련 데이터 대비 테스트 성능이 다소 낮아 모델이 훈련 데이터에 과도하게 적합되어 일반화 성능이 저하될 가능성을 시사한다.from sklearn.tree i.. 2024. 11. 14.