'Data Science/python' 카테고리의 글 목록

[python] selenium element 클릭

https://wkdtjsgur100.github.io/selenium-does-not-work-to-click/ Selenium에서 특정 element가 갑자기 클릭이 되지 않을 때 (python) selenium을 이용해서 functional test를 쨔는 도중, 특정 element를 클릭하는 부분을 쨔야하는 경우가 있었는데, wkdtjsgur100.github.io

format_list_bulleted Data Science/python
· 2022. 3. 14.
textsms

[pandas] dataframe 행 추가/제거

pandas dataframe 행 추가 1. append() 2. loc() pandas 라이브러리에서 dataframe 자료형에 행을 추가하는 방법을 정리한다. 예제의 자료는 전 국민의 데이터인 kaggle 타이타닉 데이터셋의 train에서 몇 가지 컬럼만 가져와 사용하였다. import pandas as pd df = pd.read_csv('./dataset/data_titanic/train.csv') df = df[['PassengerId', 'Survived','Name','Sex']] df 1. append() appned() 메서드는 데이터프레임에 행을 추가하는 대표적인 방법이다. 새롭게 추하가는 자료의 형태는 시리즈나 딕셔너리, 데이터프레임 모두 사용 가능하다. 우선은 딕셔너리 형태의 새로운..

format_list_bulleted Data Science/python
· 2022. 2. 9.
textsms

[pandas] pandas_profiling 정리

pandas를 이용한 데이터 분석이나 ML/DL 알고리즘 적용 시에 사전 단계로 EDA를 실시할 때 획기적인 패키지가 존재한다. 처음 pandas를 이용해 데이터프레임을 요리조리 뜯어 볼 때에는 상관관계며, 데이터 타입이며, 기술 통계량이며 하나씩 코드를 입력해서 공부하는 과정을 거쳤다. 하지만, 실제 업무나 kaggle, dacon 대회에 참여할 때에 EDA를 간략하고 빠르게 수행하기 위해서 pandas profiling 패키지를 사용하는 것이 효율적이다. profiling 패키지는 판다스 데이터프레임 타입의 자료의 프로필 리포트를 작성해주는 패키지이다. describe() 의 기술통계량을 넘어서 상관관계 부터 최빈값, 결측값, 히스토그램 까지 한번에 HTML로 작성해서 보여준다. Type infere..

format_list_bulleted Data Science/python
· 2022. 2. 2.
textsms

sklearn.model_selection.GridSearchCV 정리

GridSearchCV : 교차검증 + 하이퍼 퍼라미터 튜닝 하이퍼 파라미터 튜닝을 위한 그리드 서치와 교차평가(CV)를 한번에 할 수있는 Sklearn api 지정한 하이퍼 파라미터를 순차적으로 입력하면서 최적의 파라미터를 도출할 수 있음 그리드 서치 경우의 수 x CV 횟수 만큼의 학습과 평가가 이루어짐 최적의 파라미터를 편리하게 찾을 수 있지만 수행시간이 상대적으로 오래걸림 GridSearchCV(estimator, param_grid, scoring=None, refit=True, cv=None) estimator : classifier, regressor, pipeline param_grid : 그리드 서치로 튜닝할 하이퍼 파라미터를 딕셔너리 형태로 넣음 scoring : 평가지표 cv : 교차..

format_list_bulleted Data Science/python
· 2022. 1. 30.
textsms

sklearn.model_selection.cross_val_score 인자 정리

KFold 교차 검증을 간편하게 할 수있는 사이킷런의 교차검증 API KFold 데이터 학습과 예측 프로세스 폴드 세트를 설정 for문을 통해 학습 및 테스트 데이터의 인덱스를 추출 반복하면서 학습과 예측수행하고 평겨 결과 반환 cross_val_score() 를 쓰면 한번에 해결 가능하다. → 폴드 세트 추출, 학습 및 예측, 평가 과정들을 한번에 수행 from sklearn.model_selection import cross_val_score cross_val_score(estimator,X,y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs') - estimator : classifier..

format_list_bulleted Data Science/python
· 2022. 1. 30.
textsms

[pandas] dataframe/series 형태 train_test_split() 적용

머신러닝, 딥러닝 시 Scikit-learn에서 데이터 분할에 사용되는 train_test_split() 메서드를 pandas dataframe 또는 seires 형태의 데이터에 적용해보자. train_test_split은 sklearn.model_selection 모듈에 포함되어 있다. 우선 피쳐들로 데이터 프레임을 구성한 뒤 마지막 컬럼에 타겟을 덧붙여 dataframe으로 구성한다. 그 후 iloc 인덱싱을 통해 피쳐와 타겟을 정의한 뒤 train_test_split() 적용하면 끝. from sklearn.model_selection import train_test_split from sklearn.datasets import load_iris # 사이킷런 아이리스 내장 데이터 로드 import ..

format_list_bulleted Data Science/python
· 2022. 1. 30.
textsms

데이터 인코딩 (Data encoding)

머신러닝 알고리즘에서는 문자열 데이터를 사용할 수 없으므로 모든 데이터를 숫자로 표현해야 한다. 범주형 데이터를 다루기 위해서는 모두 숫자값으로 변환해야 한다. 대부분의 머신러닝 라이브러리 또한 범주형 자료형이 정수로 인코딩 되어 있을 것으로 기대한다. 따라서 범주형 자료의 인코딩 방법을 정리해본다. 1. map을 이용한 인코딩 인코딩 값을 부여하는 순서가 중요한 경우에 사용한다. 이밖에 인코딩 방법들은 우열을 표현하지 못하거나 숫자, 알파벳, 한글 순으로 순서가 정해져 있으므로 직접 번호를 부여하는 map 방식도 자주 사용된다. dacon 집값 예측 데이터 셋 중에 Kitchen Qual 피처를 통해 실습한다. import pandas as pd df = pd.read_csv('C:/Users/Jay/..

format_list_bulleted Data Science/python
· 2022. 1. 23.
textsms

SGD Classifier

https://inuplace.tistory.com/516 [scikit-learn 라이브러리] SGDClassifier (선형분류) 계산값을 기반으로 계산값이 0보다 작으면 -1, 0보다 크면 1로 분류한다. 이진 선형 분류기는 선, 평면, 초평면을 이용해 2개의 클래스를 구분하는 분류기이다. SGDClassifier SGDClassifier(alpha, average, cla inuplace.tistory.com

format_list_bulleted Data Science/python
· 2022. 1. 20.
textsms

[머신러닝] 분류 개요 : 결정 트리 (Decision Tree)

분류(Classification) 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습하여 모델을 생성 생성된 모델에 새로운 데이터가 주어졌을 때 어떤 레이블에 속하는지 값을 예측한는 것 대표적인 분류 알고리즘 베이즈 통계 기반 나이브 베이즈(Naive Bayes) : 스팸 필터 선형 로지스틱 회귀 (Logistic Regression) : 이름은 회귀지만 대표적인 분류 알고리즘 / 강력한 이진 분류 선형 모델 데이터 균일도에 따른 규칙 기반의 결정 트리(Decision Tree) : 설명이 중요할 때 유용한 모델 근접 거리 기준의 최소 근접(Nearest Neighbor) 알고리즘 : KNN 알고리즘 (유클리디안 거리 이용) 심층 연결 기반의 신경망(Neural Network) :..

format_list_bulleted Data Science/python
· 2022. 1. 19.
textsms

머신러닝 개요

1. 머신 러닝(ML : Machine Learning) 개념 데이터에서 지식을 추출하여 예측하는 자기 학습 알고리즘과 관련된 인공지능의 하위분야로 머신러닝 출현 애플리케이션을 수정하지 않고도 데이터 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법 여러 특징(feature)를 가지는 복잡한 데이터를 기반으로 숨겨진 패턴을 인지하고 해결한다 알고리즘을 통해 예측 오류를 최소화하기 위한 수학적 기법 적용 데이터에서 효율적으로 지식을 추출하여 예측 모델과 데이터 기반 의사결정 능력을 점진적으로 향상시킴 2. 머신러닝의 세 가지 종류 현재 머신러닝은 지도학습(Supervised Learning), 비지도 학습(Un-supervised Learning), 강화학습(Reinforcement Learning)..

format_list_bulleted Data Science/python
· 2022. 1. 15.
textsms