본문 바로가기

분류 전체보기

(148)
졸업 프로젝트 기술 스택 + Django 초기 셋팅하기 # 프로젝트 소개+기술 스택 우리 팀의 주요 컨셉은 음악 + 위로 이다. 사람들의 위로 댓글을 TTS를 통해 다양한 voice로 변환한 후 BGM + 앨범 표지가 될 그림과 합쳐 하나의 위로 앨범을 만드는 것이 목표인 웹서비스이다. '벗어나게 만들다'라는 뜻을 가진 'dislodge'에서 착안하여 자신의 위로나 불안에서 벗어나길 바라는 마음으로 우리 서비스의 이름은 로 결정했다. 기술 스택은 다음과 같다. AI API를 만들고 배포하는 프레임워크는 확실하지 않다. Flask 혹은 FastAPI를 많이 사용하는데, 멘토님께 들은 바로는 MentoML이라는 프레임워크도 배포가 편하고 가벼워서 AI를 돌리기 편하다고 하셨다. 아마 AI를 직접 돌리고 배포하면서 수정할 것 같다. 팀 작업을 위한 기초 작업들을 ..
[Week12] 07. 군집화 실습 - 고객 세그먼테이션 고객 세그먼테이션의 정의와 기법 고객 세그먼테이션(customer Segmentation)은 다양한 기준으로 고객을 분류하는 기법을 지칭한다. 주요 분류 요소는 어떤 상품을 얼마나 많은 비용을 써서 얼마나 자주 사용하는가에 기반한 정보이다. 고객 세그먼테이션의 주요 목표는 타깃 마케팅이다. 기업의 마케팅은 고객의 상품 구매 이력에서 출발한다. 기본적인 고객 분석 요소인 RFM 기법을 이용한다. Recency : 가장 최근 상품 구입 일에서 오늘까지의 기간 Frequency : 상품 구매 횟수 Monetary value : 총 구매 금액 데이터 세트 로딩과 데이터 클렌징 InvoiceNo: 주문번호. 'C'로 시작하는 것은 취소 주문이다. StockCode: 제품 코드 Description: 제품 설명 Q..
[Week11] 07. 군집화(2) 03. 평균 이동(Mean Shift) K-평균과 유사하게 중심을 군비의 중심으로 지속적으로 움직이면서 군집화를 수행한다. K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는 데 반해, 평균 이동은 중심을 데이터가 모여 있는 밀도가 가장 높은 곳으로 이동시킨다. 평균 이동 군집화는 확률 밀도 함수를 이용해 데이터의 분포도를 찾고, 이를 이용해 군집 중심점을 찾는다. 알반적으로 주어진 모델의 확률 밀도 함수를 찾기 위해 KDE를 이용한다. KDE는 커널 함수를 통해 어떤 변수의 확률 밀도 함수를 측정하는 대표적인 방법으로, 주변 데이터와의 거리 값을 KDE 함수 값으로 입력한 뒤 그 반환 값을 현재 위치에서 업데이터하면서 이동하는 방식을 취한다. 대표적인 커널 함수로서 가우시안 분포 함수가 사용..
[Week11] 07. 군집화(1) 01. K-평균 알고리즘 이해 K-평균(K-means)은 군집화(Clustering)에서 가장 일반적으로 사용되는 알고리즘이다. 군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 기법이다. 선택된 포인트의 평균지점으로 이동 후 이를 중심점으로 선택한다. 모든 데이터 포인트에서 중심점의 이동이 없을 때까지 반복하고, 반복이 끝나면 해댕 중심점에 속하는 데이터 포인트들을 군집화한다. 장점 일반적인 군집화에서 가장 많이 활용되는 알고리즘이다. 알고리즘이 쉽고 간결하다. 단점 거리 기반 알고리즘으로 속성의 개수가 많을 경우 군집화 정확도가 떨어진다. (이를 위해 PCA로 차원 감소를 적용해야 할 수도 있다.) 반복을 수행하는데, 반복 횟수가 많을 경우 ..
[Week 8] 🥑💰 PyCaret 및 EDA를 사용한 아보카도 가격 회귀 💹 8주차 복습과제 PyCaret이라는 회귀 방법을 이용해 아보카도 가격을 예측한다. 0. PyCaret이란? 최소한의 코드로 머신러닝 과정을 자동화할 수 있도록 작성된 머신러닝 패키지. 모델 수행 분석을 위해 약 25개의 알고리즘과 10개의 그래프가 포함된다. 어셈블리, 하이퍼 파라미터, 스태킹 등 모든 러신 머닝 솔루션의 또 다른 소스이다. 또한 PyCaret을 이용해 다양한 회귀 모듈을 구현 가능하다. https://pycaret.org/ Home - PyCaret With PyCaret, you don’t have to leave your Notebook. Train your model, analyze it, iterate faster than ever before, and deploy it inst..
[Week9] 06. 차원 축소 01. 차원 축소(Dimension Reduction) 개요 차원 축소 알고리즘에는 PCA, LDA, SVD, NMF 등이 있다. 차원 축소란, 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것이다. 차원 축소를 통해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있고, 시각적 표현과 학습에 필요한 데이터 처리 과정을 줄일 수 있다. 02. PCA(Principal Component Analysis PCA 개요 PCA란 가장 대표적인 차원 축소 기법으로, 여러 변수 간에 존재하는 상관 관계를 이용해 이를 대표하는 주성분을 추출해 차원을 축소하는 기법이다. PCA는 정보 유실을 최소화하기 위해 가장 높은 분산(Variance)을 가지는 데이터의 축을..
[Sklearn] 회귀 알고리즘 정리 일반 선형 회귀 : 예측값과 실제 값의 RSS를 최소화 할 수 있도록 회귀 계수 최적화 릿지(Ridge) : 선형 회귀에 L2 규제 추가 라쏘(Lasso) : 선형 회귀에 L1 규제 추가, 피처 선택 기능 엘라스틱넷(ElasticNet) : L2, L1 규제를 함께 결합 로지스틱 회귀(Logistic Regression) : 분류에 사용되는 선형 모델 회귀 트리 : 트리 기반 회귀 방식 먼저 회귀란, 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링 하는 기법을 통칭한다. 즉, Y= W1*X1 + W2*X2 + ... + Wn*Xn 이라는 선형 회귀식에서 Y는 종속 변수, X는 독립 변수, W는 독립 변수의 값에 영향을 미치는 회귀 계수(Regression coefficients..
[Week8] 05. 회귀 - 캐글 실습 09. 회귀 실습 - 자전거 대여 수요 예측 캐글에서 받은 데이터 세트에는 2011년 1월부터 2012년 12월까지 날짜/시간, 기온, 습도 등의 정보를 기반으로 1시간 간격으로 자전거 대여 횟수 정보가 있다. 결정값은 count(대여 횟수)이다. 데이터 클렌징 및 가공과 데이터 시각화 bike_df.info()로 데이터 칼럼의 타입을 살펴본다. RangeIndex: 10886 entries, 0 to 10885 Data columns (total 12 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 datetime 10886 non-null object 1 season 10886 non-null int64 2 holid..