TIL 013 데이터 분석 부트캠프 37일차 1. 파이썬 추천 패키지 suprise 추천 알고리즘 클래스 SVD : 행렬 분해를 통한 잠재 요인 협업 필터링 (MF) KNNBasic : 최근접 이웃 협업 필터링 BaselineOnly : 사용자 Bias와 아이탱 Bise 감안한 SGD 베이스라인 알고리즘 (예측 평점 등) 내장 데이터셋 (ml-100k)을 이용한 실습 : CF 글로우 픽 데이터를 이용한 실제 프로젝트 연습 : CF 2. 추천 시스템 구축 팀 프로젝트 Brainstorming metacritic 크롤링 해서 닌텐도 스위치 타이틀 추천 교보문고 베스트셀러 크롤링 후 추천시스템과 비교 (키워드 픽 유용) 디퓨저, 향수 추천? 키워드 찾을 수 있을까... 라벨링 어려움 Tripadvisor : ..
TIL 012 데이터 분석 부트 캠프 36일차 1. 아이템 기반 최근접 이웃 협업 필터링 (CF-KNN(item)) 협업 필터링 방식 (Collaborative Filtering) : 사용자 행동 양식만을 기반으로 추천을 수행하는 것 → 친구들에게 물어보는 것! 축적된 사용자 행동 데이터를 기반으로 사용자가 아직 평가하지 않는 아이템을 예측하여 평가 하는 것 최근접 이웃 방식 (KNN)과 잠재 요인 방식(MF)로 나뉨 → 사용자-아이템 평점 행렬 데이터 기반! 사용자 기반 : 당신과 비슷한 관객들이 다음 영화도 관람 아이템 기반 : 이 영화를 본 다른 관객들은 다음 영화도 관람 (일반적으로 정확도가 더 높음) 실습 : github 2. MF 기반 잠재 요인 협업 필터링 사용자-아이템 평점 매트릭스 속의 ..
TIL 011 데이터 분석 부트캠프 35일차 1. 구매 요인 분석 (Decision Tree) 판매 여부 예측 및 각 변수의 영향도 확인 Decision Tree Logistic Regression 비모수 모델 (비선형 관계도 됨) 모수 모델 (선형 관계만) Feature power 부실 (feature importance 있긴 함) Feature power 잘 나타냄 (Coefficient, p-value, R-square) 범주형 변수 그대로 사용 가능 (그래도 하는게 좋음) 범주형 변수 원핫 인코딩 필요 피쳐의 특정 항목을 하나로 나타내는 방법 : 고민 해결!! # Black 종류를 하나로 통합시켜줄 함수 작성 (A) def black(x): if x == 'Midnight Black'..
TIL day 10 데이터 분석 boot camp 34일차 1. 고객별 연간 지출액 예측 실습(Linear regression) linear regression으로 E-Commerce 고객별 연간 지출액 예측 sns.pairplot(data) : 상관관계 시각화 통계량 해석 R-squared : 모델의 설명력 클수록 좋은 모델 (0.8이상이면 괜찮다고 본다.) Adj. R-squared는 변수의 갯수까지 고려한 통계량으로 이게 더 중요 coefficient : 각 독립변수의 영향력 (회귀계수) 특정 독립 변수의 결정계수가 클수록 독립변수의 변화에 종속 변수가 크게 영향 받음 따라서 scale을 맞춘 다음 coef를 평가해야 한다. P-value : 검증 결과의 신뢰도에 대한 기준 0.05 이하면 통계적으..
데이터 분석 boot camp day 33 1. 머신러닝까지 중간평가 2. 조별 간이 프로젝트 진행해보기 Dacon 영화 관객 예측 대회 연습 Dacon 영화 관객 예측 대회 연습 Dacon_practice repository로 따로 저장하자! feature engineering의 중요성 : 범주형 피쳐 인코딩, 결측값 처리 → 접근하는 아이디어가 생각보다 중요하다. pycaret 설치 및 document 공부 : pycaret document 결국 ML/DL 알고리즘 모두 data-driven 이므로 전처리 단계와 피쳐 엔지니어링이 지금은 더 중요한 것 같다. 3. 대기업 화학회사 Computer Vision 현직자 특강 아직 CV는 커녕 딥러닝을 공부하지 않아서 알아듣기 힘들었다... 꾸준히 대회에 ..
Git, Github 특강 3일차 1. Branch Branch : git 버전 관리의 핵심 1.1 Branch란? 여러 갈래로 작업 공간을 나누어 독립적으로 작업할 수 있는 Git의 도구 장점 브랜치는 독립공간이므로 원본(master)에 대해 안전함 하나의 작업이 곧 하나의 브랜치이므로 체계적인 개발 가능 Git은 브랜치를 만드는 속도가 빠르고 용량이 적게든다. 1.2 git branch 브랜치 조회, 생성, 삭제 등의 명령어 # 브랜치 목록 확인 $ git branch # 원격 저장소의 브랜치 목록 확인 $ git branch -r # 새로운 브랜치 생성 $ git branch # 특정 커밋 기준으로 브랜치 생성 $ git branch # 특정 브랜치 삭제 $ git branch -d # 병합된 브랜..
what/why Git&Github 공부할 때 포트폴리오로 기능함과 동시에 실제 업무 시에 반드시 활용하게 됨 개발자들의 협업을 위한 도구 1. Git을 이용한 버전 관리 Git : (분산) 버전관리 프로그램 / Github : 서비스 버전 관리 : 컴퓨터 소프트웨어의 특정 상태를 관리하는 것? 실무에서 협업에 쓰인다!! 2. 포트폴리오 작성 기능 - 오늘부터 TIL 잔디 심기!! 3. Bash는 어디서 열었는지 항상 체크할것 4. 명령어 명령어 start . / open . 상대경로 = 내 위치 기준 / 절대경로 = 어디든 상관없는 위치 1. date = 시간 알려준다 2. ~ : 루트, 홈 디렉토리 3. ls (list segments) : 현재 디렉토리 내의 폴더 & 파일을 보여줌 -> ls -a ..
데이터 분석 부트캠프 파이썬 머신러닝 완벽 가이드 ch3. 평가 정확도(Accuracy) : 레이블 값이 불균형한 불포를 가질 때, ML 모델의 적합한 평가 지표가 될 수 없음 오차행렬(Confusion Matrix) : 정확도 개념의 한계 정밀도(Precision) : TP/(FP + TP) → 임계값이 낮을수록 높아진다 재현율(Recall) : TP/(FN + TP) →임계값이 높을수록 높아진다 F1 스코어 : 정밀도와 재현율의 trade-off 관계의 절충 지표 → 두 값이 비슷할 떄 높은 F1 스코어 기록 ROC곡선, AUC 스코어 : ML 이진 분류 모델의 예측 성능 평가 시 중요한 지표 (1에 가까울수록 좋음) 분류 실습 : 산탄데르 은행 만족도 예측 트리 기반 모델 사용 : XGBoost 와..
LightGBM XGBoost 와의 차별점 : 크게 느껴지지는 않지만... 다 빠른 학습, 예측 수행 시간, 더 작은 메모리 사용량 카테고리형 피처를 자동을 변환하고 최적 분할 기능 제공 → 인코딩을 직접하지 않아고 카테고리형 피처 변환 GPU 지원 트리분할 방식 : 리프중심으로 균형 분할보다 오류를 줄이는 방향으로 트리를 분할 사이킷런 래퍼가 XGBoost에 있으면 파이썬 래퍼를 가져다가 쓴다 → 주로 쓰는 방법으로 자연스럽게 익히기 visual studio build tools 설치
머신러닝 : 분류 (결정트리) , 앙상블 (랜덤포레스트) 분류 : 결정트리 결정트리 알고리즘의 이해 : 정보이득 최대화 → 불순도 : 엔트로피, 지니계수, 분류오차 결정트리 시각화 : Graphviz 결정트리 과적합 문제 앙상블 앙상블의 개념 : 여러 알고리즘을 섞어서 더 좋은 알고리즘을 만드는 것 → 단순히 성능 뿐만 아니라 과적합 문제도 해결 앙상블 종류 : 보팅, 배깅, 부스팅 보팅(voting) 일반적으로 서로 다른 알고리즘의 여러 개의 분류기를 모아서 서로 투표하고 최종 예측 결과를 정함 하드 보팅 : 다수의 분류 알고리즘이 다수결로 최종 결과 정함 소프트 보팅 : 다수의 분류 알고리즘이 클래스 별로 확률을 평균하여 결정 → 주로 많이 쓰임 scikit-learn : VotingClassifie..