본문 바로가기

Euron/정리

(21)
[Week11] 07. 군집화(2) 03. 평균 이동(Mean Shift) K-평균과 유사하게 중심을 군비의 중심으로 지속적으로 움직이면서 군집화를 수행한다. K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는 데 반해, 평균 이동은 중심을 데이터가 모여 있는 밀도가 가장 높은 곳으로 이동시킨다. 평균 이동 군집화는 확률 밀도 함수를 이용해 데이터의 분포도를 찾고, 이를 이용해 군집 중심점을 찾는다. 알반적으로 주어진 모델의 확률 밀도 함수를 찾기 위해 KDE를 이용한다. KDE는 커널 함수를 통해 어떤 변수의 확률 밀도 함수를 측정하는 대표적인 방법으로, 주변 데이터와의 거리 값을 KDE 함수 값으로 입력한 뒤 그 반환 값을 현재 위치에서 업데이터하면서 이동하는 방식을 취한다. 대표적인 커널 함수로서 가우시안 분포 함수가 사용..
[Week11] 07. 군집화(1) 01. K-평균 알고리즘 이해 K-평균(K-means)은 군집화(Clustering)에서 가장 일반적으로 사용되는 알고리즘이다. 군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 기법이다. 선택된 포인트의 평균지점으로 이동 후 이를 중심점으로 선택한다. 모든 데이터 포인트에서 중심점의 이동이 없을 때까지 반복하고, 반복이 끝나면 해댕 중심점에 속하는 데이터 포인트들을 군집화한다. 장점 일반적인 군집화에서 가장 많이 활용되는 알고리즘이다. 알고리즘이 쉽고 간결하다. 단점 거리 기반 알고리즘으로 속성의 개수가 많을 경우 군집화 정확도가 떨어진다. (이를 위해 PCA로 차원 감소를 적용해야 할 수도 있다.) 반복을 수행하는데, 반복 횟수가 많을 경우 ..
[Week 8] 🥑💰 PyCaret 및 EDA를 사용한 아보카도 가격 회귀 💹 8주차 복습과제 PyCaret이라는 회귀 방법을 이용해 아보카도 가격을 예측한다. 0. PyCaret이란? 최소한의 코드로 머신러닝 과정을 자동화할 수 있도록 작성된 머신러닝 패키지. 모델 수행 분석을 위해 약 25개의 알고리즘과 10개의 그래프가 포함된다. 어셈블리, 하이퍼 파라미터, 스태킹 등 모든 러신 머닝 솔루션의 또 다른 소스이다. 또한 PyCaret을 이용해 다양한 회귀 모듈을 구현 가능하다. https://pycaret.org/ Home - PyCaret With PyCaret, you don’t have to leave your Notebook. Train your model, analyze it, iterate faster than ever before, and deploy it inst..
[Week9] 06. 차원 축소 01. 차원 축소(Dimension Reduction) 개요 차원 축소 알고리즘에는 PCA, LDA, SVD, NMF 등이 있다. 차원 축소란, 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것이다. 차원 축소를 통해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있고, 시각적 표현과 학습에 필요한 데이터 처리 과정을 줄일 수 있다. 02. PCA(Principal Component Analysis PCA 개요 PCA란 가장 대표적인 차원 축소 기법으로, 여러 변수 간에 존재하는 상관 관계를 이용해 이를 대표하는 주성분을 추출해 차원을 축소하는 기법이다. PCA는 정보 유실을 최소화하기 위해 가장 높은 분산(Variance)을 가지는 데이터의 축을..
[Week8] 05. 회귀 - 캐글 실습 09. 회귀 실습 - 자전거 대여 수요 예측 캐글에서 받은 데이터 세트에는 2011년 1월부터 2012년 12월까지 날짜/시간, 기온, 습도 등의 정보를 기반으로 1시간 간격으로 자전거 대여 횟수 정보가 있다. 결정값은 count(대여 횟수)이다. 데이터 클렌징 및 가공과 데이터 시각화 bike_df.info()로 데이터 칼럼의 타입을 살펴본다. RangeIndex: 10886 entries, 0 to 10885 Data columns (total 12 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 datetime 10886 non-null object 1 season 10886 non-null int64 2 holid..
[Week5] 05. 회귀(2) 05. 다항 회귀와 과(대)적합/과소적합 이해 다항 회귀 이해 이전 회귀는 독립변수(feature)와 종속변수(target)의 관계가 일차 방정식으로 표현된 회귀였다. 다항(Polynomial) 회귀란 독립 변수의 단항식이 아닌 2,3차 방정식과 같은 다항식으로 표현되는 것을 말한다. 여기서 다항 회귀는 선형 회귀이다. 사이킷런은 다항 회귀를 위한 클래스를 제공하지 않으므로, 비선형 함수를 선형 모델에 적용시키는 방법을 사용해 구현한다. 이를 위해 사이킷런은 PolynomialFeatures 클래스를 통해 피처를 다항식 피처로 변환한다. degree 파라미터를 통해 입력받은 단항식 피처를 degree에 해당하는 다항식 피처로 변환한다. from sklearn.preprocessing import Poly..
[Week5] 05. 회귀(1) 01. 회귀 소개 회귀(Regression)는 여러 개의 독립변수와 한 개의 종속 변수 간의 상관관계를 모델링하는 기법. Y = W1X1 + W2X2 + ... + WnXn 이라는 선형 회귀식에서, Y는 종속변수, X는 독립변수, W는 독립변수의 값에 영향을 미치는 회귀 계수(Regresstion coefficients)이다. 머신러닝 관점에서 독립변수는 피처에 해당되며 종속변수는 결정 값이다. 즉, 머신러닝 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수(W)를 찾아내는 것 분류 회귀 계수의 선형 여부 : 선형 회귀, 비선형 회귀 독립 변수의 개수 : 단일 회귀, 다중 회귀 이전에 배운 분류는 예측값이 카테고리와 같은 이산형 클래스 값이고, 회귀는 연속형 숫자 ..
[Week4] 04. 분류 - 캐글 실습 09. 캐글 산탄데르 고객 만족 예측 데이터 전처리 캐글 산탄데르 고객 만족 데이터 세트를 이용해 고객 만족 여부를 XGBoost와 LightGBM을 활용해 예측한다. 클래스 레이블 명은 RARGET이며, 이 값이 1이면 불만을 가진 고객, 0이면 만족한 고객이다. 이러한 데이터의 대부분은 만족이르모, 정확도 수치보다는 ROC-AUC로 성능을 평가하는 것이 좋다. cust_df = pd.read_csv(r"C:\Users\jain5\Desktop\Euron\Data_Handling\train.csv", encoding='latin-1') print('dataset shape:', cust_df.shape) cust_df.head(3) # 클래스 레이블 명 TARGET, 1이면 불만족, 0이면 만족한 고객..