본문 바로가기

전체 글

(148)
[JAVA] 입출력과 사칙연산 2557 Hello World 기본적인 출력문제. 백준에서 자바 클래스명은 Main으로 해주어야한다. 이전에 배운 것처럼 main() 메소드에서 프로그램 실행. public class Main{ public static void main(String[] args){ System.out.print("Hello World!"); } } 위 방식은 표준 출력 스트림 System.out의 print() 메소드를 호출했다. import java.io.BufferedWriter; import java.io.OutputStreamWriter; import java.io.IOException; public class Main { public static void main(String[] args) throws IOEx..
인류문명과환경공학 정리 이화여자대학교 인류문명과환경공학 중간정리 평균은 넘었다...! 짧지만 열심히 정리해서 삭제하기 전에 백업 중간 84 기말 89인데 A-받았다ㅜ 좀 짜다..
[Week18] 09. 추천 시스템 - 실습 08. 파이썬 추천 시스템 패키지 - Surprise surprise 패키지 소개 추천 시스템은 상업적으로 가치가 크므로 별도의 패키기로 제공된다. 그중 파이썬 기반의 추천 시스템 surprise를 이용해 구현한다. cmd에 pip install scikit-surprise 를 통해 모듈을 설치한다. surprise 패키지는 다양한 추천 알고리즘을 가지고 있고, 사이킷런의 핵심 API와 유사한 API명으로 작성가능하여 쉽게 추천 시스템을 구축할 수 있다. Surprise를 이용한 추천 시스템 구축 Surpruse 문서 확인하기 Welcome to Surprise’ documentation! — Surprise 1 documentation Welcome to Surprise’ documentation! —..
[Week17] 09. 추천 시스템 01. 추천 시스템의 개요와 배경 추천 시스템의 개요 적절한 추천 시스템은 사이트의 매출 증가에 도움이 된다. 추천 시스템을 접한 사용자는 더 많은 추천 콘텐츠를 선택하게 되고, 결국 더 많은 데이터가 축적되며 더욱 정확하고 다양한 결과를 얻을 수 있게 된다. 온라인 스토어의 필수 요소, 추천 시스템 추천 시스템은 특히 온라인 스토어의 필수 요소이다. 많은 양의 고객과 상품 관련 데이터를 가지고 있으며, 사용자가 흥미를 가질 만한 상품을 즉각적으로 추천하는데 사용된다. 추천 시스템의 유형 추천 시스템은 크게 콘텐츠 기반 필터링(Content based filtering) 방식과 협업 필터링(Collaborative Filtering) 방식으로 나뉘며, 협업 필터링 방식은 다시 최근접 이웃(Nearest ..
[Week16] 08. 텍스트 분석 - 실습(2) 10. 텍스트 분석 실습 - 캐글 Mercari Price Suggestion Challenge Mercari Price Suggestion Challenge | Kaggle Mercari Price Suggestion Challenge | Kaggle www.kaggle.com 위에서 데이터 세트를 다운 받는다. 제공되는 데이터 세트 중 price 값을 예측한다. 이번 실습에서는 텍스트 형태의 비정형 데이터와 다른 정형 속성을 같이 적용해 회귀를 수행한다. 데이터 전처리 print(mercari_df.info()) RangeIndex: 1482535 entries, 0 to 1482534 Data columns (total 8 columns): # Column Non-Null Count Dtype --..
[Week16] 08. 텍스트 분석 - 실습 06. 토픽 모델링(Topic Modeling) - 20 뉴스그룹 토픽 모델링(Topic Modeling)이란 문서 집합에 숨어 있는 주제를 찾아내는 것이다. 사람은 더 함축적으로 문장을 요약적으로 하지만, 머신러닝 기반의 토픽 모델링은 숨겨진 주제를 효과적으로 표현할 수 있는 중심 단어를 함축적으로 추출한다. 머신러닝 기반의 토픽 모델링에는 LSA와 LDA 기법이 사용된다. 이번 절에서는 LDA만 사용한다.(차원 축소의 LDA와 다르다.) 이전에 사용한 20 뉴스그룹 데이터 세트를 이용해 토픽 모델링을 적용한다. 이를 위해 여러 주제의 데이터 중 8개의 주제를 추출한다. fetch_20newsgroups() API는 categories 파라미터를 통해 필요한 주제만 필터링해 추출할 수 있다. 추출된 텍..
[Week12] Popular Unsupervised Clustering Algorithms Machine Learning은 크게 3가지로 분류할 수 있다. Supervised Learning Unsupervised Learning Semi-supervised Learning 이중 Unsupervised Learning 방식인 Clustering에 대한 복습을 진행한다. Clustering은 Target값이 주어지지 않은 데이터를 위한 알고리즘으로, 유사한 객체들을 그룹화해가는 작업이다. 그룹화 방식에 따라 K-means, DBSCAN, Mean-Shift 등으로 나뉜다. # 데이터 전처리 고객의 정보 데이터(ID, 나이, 성별, 소득, 지출 점수)를 이용하여 Clustering을 진행한다. df = pd.read_csv("C:/Users/jain5/Desktop/Euron/Data_Handli..
[Week15] 08. 텍스트 분석 NLP이냐 텍스트 분석이냐? NLP는 머신이 인간의 언어를 이해하고 해석하는 것, 테스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점을 둔다. NLP는 기계 번역, 질의 응답 시스템에서 사용되고, 텍스트 분석은 텍스트 분류, 감정 분석, 텍스트 요약, 텍스트 군집화 등을 실시한다. 이번 장에서는 텍스트 분석을 중심으로 진행한다. 01. 텍스트 분석 이해 텍스트를 머신러닝 알고리즘으로 학습하기 위해서는 word 기반의 다수의 피처로 추출하고 이 피처에 단어 빈도수와 같은 숫자 값을 부여하여 벡터값으로 표현한다. 이를 피처 벡터화 또는 피처 추출이라고 하며, 대표적으로 BOW(Bag of Words)와 Word2Vec 방법이 있다. 텍스트 분석 수행 프로세스 1. 텍스트 사전 준비작업(텍스..