본문 바로가기

Euron/정리

(21)
[Week18] 09. 추천 시스템 - 실습(2) 06. 아이템 기반 최근접 이웃 협업 필터링 실습 일반적으로 추천 정확도가 더 뛰어난 아이템 기반의 협업 필터링을 구현한다. 협업 필터링 추천을 위한 사용자-영화 평점 행렬 데이터 세트를 가져온다. MovieLens Latest Datasets | GroupLens MovieLens Latest Datasets These datasets will change over time, and are not appropriate for reporting research results. We will keep the download links stable for automated downloads. We will not archive or make available p… grouplens.org 데이터 가공 및 변..
[Week18] 09. 추천 시스템 - 실습 08. 파이썬 추천 시스템 패키지 - Surprise surprise 패키지 소개 추천 시스템은 상업적으로 가치가 크므로 별도의 패키기로 제공된다. 그중 파이썬 기반의 추천 시스템 surprise를 이용해 구현한다. cmd에 pip install scikit-surprise 를 통해 모듈을 설치한다. surprise 패키지는 다양한 추천 알고리즘을 가지고 있고, 사이킷런의 핵심 API와 유사한 API명으로 작성가능하여 쉽게 추천 시스템을 구축할 수 있다. Surprise를 이용한 추천 시스템 구축 Surpruse 문서 확인하기 Welcome to Surprise’ documentation! — Surprise 1 documentation Welcome to Surprise’ documentation! —..
[Week17] 09. 추천 시스템 01. 추천 시스템의 개요와 배경 추천 시스템의 개요 적절한 추천 시스템은 사이트의 매출 증가에 도움이 된다. 추천 시스템을 접한 사용자는 더 많은 추천 콘텐츠를 선택하게 되고, 결국 더 많은 데이터가 축적되며 더욱 정확하고 다양한 결과를 얻을 수 있게 된다. 온라인 스토어의 필수 요소, 추천 시스템 추천 시스템은 특히 온라인 스토어의 필수 요소이다. 많은 양의 고객과 상품 관련 데이터를 가지고 있으며, 사용자가 흥미를 가질 만한 상품을 즉각적으로 추천하는데 사용된다. 추천 시스템의 유형 추천 시스템은 크게 콘텐츠 기반 필터링(Content based filtering) 방식과 협업 필터링(Collaborative Filtering) 방식으로 나뉘며, 협업 필터링 방식은 다시 최근접 이웃(Nearest ..
[Week16] 08. 텍스트 분석 - 실습(2) 10. 텍스트 분석 실습 - 캐글 Mercari Price Suggestion Challenge Mercari Price Suggestion Challenge | Kaggle Mercari Price Suggestion Challenge | Kaggle www.kaggle.com 위에서 데이터 세트를 다운 받는다. 제공되는 데이터 세트 중 price 값을 예측한다. 이번 실습에서는 텍스트 형태의 비정형 데이터와 다른 정형 속성을 같이 적용해 회귀를 수행한다. 데이터 전처리 print(mercari_df.info()) RangeIndex: 1482535 entries, 0 to 1482534 Data columns (total 8 columns): # Column Non-Null Count Dtype --..
[Week16] 08. 텍스트 분석 - 실습 06. 토픽 모델링(Topic Modeling) - 20 뉴스그룹 토픽 모델링(Topic Modeling)이란 문서 집합에 숨어 있는 주제를 찾아내는 것이다. 사람은 더 함축적으로 문장을 요약적으로 하지만, 머신러닝 기반의 토픽 모델링은 숨겨진 주제를 효과적으로 표현할 수 있는 중심 단어를 함축적으로 추출한다. 머신러닝 기반의 토픽 모델링에는 LSA와 LDA 기법이 사용된다. 이번 절에서는 LDA만 사용한다.(차원 축소의 LDA와 다르다.) 이전에 사용한 20 뉴스그룹 데이터 세트를 이용해 토픽 모델링을 적용한다. 이를 위해 여러 주제의 데이터 중 8개의 주제를 추출한다. fetch_20newsgroups() API는 categories 파라미터를 통해 필요한 주제만 필터링해 추출할 수 있다. 추출된 텍..
[Week12] Popular Unsupervised Clustering Algorithms Machine Learning은 크게 3가지로 분류할 수 있다. Supervised Learning Unsupervised Learning Semi-supervised Learning 이중 Unsupervised Learning 방식인 Clustering에 대한 복습을 진행한다. Clustering은 Target값이 주어지지 않은 데이터를 위한 알고리즘으로, 유사한 객체들을 그룹화해가는 작업이다. 그룹화 방식에 따라 K-means, DBSCAN, Mean-Shift 등으로 나뉜다. # 데이터 전처리 고객의 정보 데이터(ID, 나이, 성별, 소득, 지출 점수)를 이용하여 Clustering을 진행한다. df = pd.read_csv("C:/Users/jain5/Desktop/Euron/Data_Handli..
[Week15] 08. 텍스트 분석 NLP이냐 텍스트 분석이냐? NLP는 머신이 인간의 언어를 이해하고 해석하는 것, 테스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점을 둔다. NLP는 기계 번역, 질의 응답 시스템에서 사용되고, 텍스트 분석은 텍스트 분류, 감정 분석, 텍스트 요약, 텍스트 군집화 등을 실시한다. 이번 장에서는 텍스트 분석을 중심으로 진행한다. 01. 텍스트 분석 이해 텍스트를 머신러닝 알고리즘으로 학습하기 위해서는 word 기반의 다수의 피처로 추출하고 이 피처에 단어 빈도수와 같은 숫자 값을 부여하여 벡터값으로 표현한다. 이를 피처 벡터화 또는 피처 추출이라고 하며, 대표적으로 BOW(Bag of Words)와 Word2Vec 방법이 있다. 텍스트 분석 수행 프로세스 1. 텍스트 사전 준비작업(텍스..
[Week12] 07. 군집화 실습 - 고객 세그먼테이션 고객 세그먼테이션의 정의와 기법 고객 세그먼테이션(customer Segmentation)은 다양한 기준으로 고객을 분류하는 기법을 지칭한다. 주요 분류 요소는 어떤 상품을 얼마나 많은 비용을 써서 얼마나 자주 사용하는가에 기반한 정보이다. 고객 세그먼테이션의 주요 목표는 타깃 마케팅이다. 기업의 마케팅은 고객의 상품 구매 이력에서 출발한다. 기본적인 고객 분석 요소인 RFM 기법을 이용한다. Recency : 가장 최근 상품 구입 일에서 오늘까지의 기간 Frequency : 상품 구매 횟수 Monetary value : 총 구매 금액 데이터 세트 로딩과 데이터 클렌징 InvoiceNo: 주문번호. 'C'로 시작하는 것은 취소 주문이다. StockCode: 제품 코드 Description: 제품 설명 Q..