'TIL' 카테고리의 글 목록 (2 Page)

Day 37

TIL 013 데이터 분석 부트캠프 37일차 1. 파이썬 추천 패키지 suprise 추천 알고리즘 클래스 SVD : 행렬 분해를 통한 잠재 요인 협업 필터링 (MF) KNNBasic : 최근접 이웃 협업 필터링 BaselineOnly : 사용자 Bias와 아이탱 Bise 감안한 SGD 베이스라인 알고리즘 (예측 평점 등) 내장 데이터셋 (ml-100k)을 이용한 실습 : CF 글로우 픽 데이터를 이용한 실제 프로젝트 연습 : CF 2. 추천 시스템 구축 팀 프로젝트 Brainstorming metacritic 크롤링 해서 닌텐도 스위치 타이틀 추천 교보문고 베스트셀러 크롤링 후 추천시스템과 비교 (키워드 픽 유용) 디퓨저, 향수 추천? 키워드 찾을 수 있을까... 라벨링 어려움 Tripadvisor : ..

format_list_bulleted TIL
· 2022. 2. 14.
textsms

Day 36

TIL 012 데이터 분석 부트 캠프 36일차 1. 아이템 기반 최근접 이웃 협업 필터링 (CF-KNN(item)) 협업 필터링 방식 (Collaborative Filtering) : 사용자 행동 양식만을 기반으로 추천을 수행하는 것 → 친구들에게 물어보는 것! 축적된 사용자 행동 데이터를 기반으로 사용자가 아직 평가하지 않는 아이템을 예측하여 평가 하는 것 최근접 이웃 방식 (KNN)과 잠재 요인 방식(MF)로 나뉨 → 사용자-아이템 평점 행렬 데이터 기반! 사용자 기반 : 당신과 비슷한 관객들이 다음 영화도 관람 아이템 기반 : 이 영화를 본 다른 관객들은 다음 영화도 관람 (일반적으로 정확도가 더 높음) 실습 : github 2. MF 기반 잠재 요인 협업 필터링 사용자-아이템 평점 매트릭스 속의 ..

format_list_bulleted TIL
· 2022. 2. 8.
textsms

Day 35

TIL 011 데이터 분석 부트캠프 35일차 1. 구매 요인 분석 (Decision Tree) 판매 여부 예측 및 각 변수의 영향도 확인 Decision Tree Logistic Regression 비모수 모델 (비선형 관계도 됨) 모수 모델 (선형 관계만) Feature power 부실 (feature importance 있긴 함) Feature power 잘 나타냄 (Coefficient, p-value, R-square) 범주형 변수 그대로 사용 가능 (그래도 하는게 좋음) 범주형 변수 원핫 인코딩 필요 피쳐의 특정 항목을 하나로 나타내는 방법 : 고민 해결!! # Black 종류를 하나로 통합시켜줄 함수 작성 (A) def black(x): if x == 'Midnight Black&#39..

format_list_bulleted TIL
· 2022. 2. 8.
textsms

Day 34

TIL day 10 데이터 분석 boot camp 34일차 1. 고객별 연간 지출액 예측 실습(Linear regression) linear regression으로 E-Commerce 고객별 연간 지출액 예측 sns.pairplot(data) : 상관관계 시각화 통계량 해석 R-squared : 모델의 설명력 클수록 좋은 모델 (0.8이상이면 괜찮다고 본다.) Adj. R-squared는 변수의 갯수까지 고려한 통계량으로 이게 더 중요 coefficient : 각 독립변수의 영향력 (회귀계수) 특정 독립 변수의 결정계수가 클수록 독립변수의 변화에 종속 변수가 크게 영향 받음 따라서 scale을 맞춘 다음 coef를 평가해야 한다. P-value : 검증 결과의 신뢰도에 대한 기준 0.05 이하면 통계적으..

format_list_bulleted TIL
· 2022. 2. 4.
textsms

Day 33

데이터 분석 boot camp day 33 1. 머신러닝까지 중간평가 2. 조별 간이 프로젝트 진행해보기 Dacon 영화 관객 예측 대회 연습 Dacon 영화 관객 예측 대회 연습 Dacon_practice repository로 따로 저장하자! feature engineering의 중요성 : 범주형 피쳐 인코딩, 결측값 처리 → 접근하는 아이디어가 생각보다 중요하다. pycaret 설치 및 document 공부 : pycaret document 결국 ML/DL 알고리즘 모두 data-driven 이므로 전처리 단계와 피쳐 엔지니어링이 지금은 더 중요한 것 같다. 3. 대기업 화학회사 Computer Vision 현직자 특강 아직 CV는 커녕 딥러닝을 공부하지 않아서 알아듣기 힘들었다... 꾸준히 대회에 ..

format_list_bulleted TIL
· 2022. 2. 3.
textsms

Day 32

Git, Github 특강 3일차 1. Branch Branch : git 버전 관리의 핵심 1.1 Branch란? 여러 갈래로 작업 공간을 나누어 독립적으로 작업할 수 있는 Git의 도구 장점 브랜치는 독립공간이므로 원본(master)에 대해 안전함 하나의 작업이 곧 하나의 브랜치이므로 체계적인 개발 가능 Git은 브랜치를 만드는 속도가 빠르고 용량이 적게든다. 1.2 git branch 브랜치 조회, 생성, 삭제 등의 명령어 # 브랜치 목록 확인 $ git branch # 원격 저장소의 브랜치 목록 확인 $ git branch -r # 새로운 브랜치 생성 $ git branch # 특정 커밋 기준으로 브랜치 생성 $ git branch # 특정 브랜치 삭제 $ git branch -d # 병합된 브랜..

format_list_bulleted TIL
· 2022. 1. 27.
textsms

Day 30

what/why Git&Github 공부할 때 포트폴리오로 기능함과 동시에 실제 업무 시에 반드시 활용하게 됨 개발자들의 협업을 위한 도구 1. Git을 이용한 버전 관리 Git : (분산) 버전관리 프로그램 / Github : 서비스 버전 관리 : 컴퓨터 소프트웨어의 특정 상태를 관리하는 것? 실무에서 협업에 쓰인다!! 2. 포트폴리오 작성 기능 - 오늘부터 TIL 잔디 심기!! 3. Bash는 어디서 열었는지 항상 체크할것 4. 명령어 명령어 start . / open . 상대경로 = 내 위치 기준 / 절대경로 = 어디든 상관없는 위치 1. date = 시간 알려준다 2. ~ : 루트, 홈 디렉토리 3. ls (list segments) : 현재 디렉토리 내의 폴더 & 파일을 보여줌 -> ls -a ..

format_list_bulleted TIL
· 2022. 1. 26.
textsms

Day 29

데이터 분석 부트캠프 파이썬 머신러닝 완벽 가이드 ch3. 평가 정확도(Accuracy) : 레이블 값이 불균형한 불포를 가질 때, ML 모델의 적합한 평가 지표가 될 수 없음 오차행렬(Confusion Matrix) : 정확도 개념의 한계 정밀도(Precision) : TP/(FP + TP) → 임계값이 낮을수록 높아진다 재현율(Recall) : TP/(FN + TP) →임계값이 높을수록 높아진다 F1 스코어 : 정밀도와 재현율의 trade-off 관계의 절충 지표 → 두 값이 비슷할 떄 높은 F1 스코어 기록 ROC곡선, AUC 스코어 : ML 이진 분류 모델의 예측 성능 평가 시 중요한 지표 (1에 가까울수록 좋음) 분류 실습 : 산탄데르 은행 만족도 예측 트리 기반 모델 사용 : XGBoost 와..

format_list_bulleted TIL
· 2022. 1. 21.
textsms

Day 28

LightGBM XGBoost 와의 차별점 : 크게 느껴지지는 않지만... 다 빠른 학습, 예측 수행 시간, 더 작은 메모리 사용량 카테고리형 피처를 자동을 변환하고 최적 분할 기능 제공 → 인코딩을 직접하지 않아고 카테고리형 피처 변환 GPU 지원 트리분할 방식 : 리프중심으로 균형 분할보다 오류를 줄이는 방향으로 트리를 분할 사이킷런 래퍼가 XGBoost에 있으면 파이썬 래퍼를 가져다가 쓴다 → 주로 쓰는 방법으로 자연스럽게 익히기 visual studio build tools 설치

format_list_bulleted TIL
· 2022. 1. 20.
textsms

Day 27

머신러닝 : 분류 (결정트리) , 앙상블 (랜덤포레스트) 분류 : 결정트리 결정트리 알고리즘의 이해 : 정보이득 최대화 → 불순도 : 엔트로피, 지니계수, 분류오차 결정트리 시각화 : Graphviz 결정트리 과적합 문제 앙상블 앙상블의 개념 : 여러 알고리즘을 섞어서 더 좋은 알고리즘을 만드는 것 → 단순히 성능 뿐만 아니라 과적합 문제도 해결 앙상블 종류 : 보팅, 배깅, 부스팅 보팅(voting) 일반적으로 서로 다른 알고리즘의 여러 개의 분류기를 모아서 서로 투표하고 최종 예측 결과를 정함 하드 보팅 : 다수의 분류 알고리즘이 다수결로 최종 결과 정함 소프트 보팅 : 다수의 분류 알고리즘이 클래스 별로 확률을 평균하여 결정 → 주로 많이 쓰임 scikit-learn : VotingClassifie..

format_list_bulleted TIL
· 2022. 1. 19.
textsms