'Data Science' 카테고리의 글 목록

[SQL] COALESCE 함수

https://gent.tistory.com/479 [Oracle] COALESCE 함수 사용법 (NVL 여러개) 오라클에서 NULL 값을 치환할 때는 NVL, NVL2, COALESCE 함수를 사용한다. COALESCE 함수는 NVL 함수의 기능이 조금 더 확장된 함수라고 생각하면 된다. NVL 함수와 동일하게 사용할 수도 있지만, 여러 개의 gent.tistory.com

format_list_bulleted Data Science/SQL
· 2023. 2. 3.
textsms

[SQL] WHERE 1=1

SELECT QUARTER(release_date) 분기, distributor 배급사, COUNT(*) 영화편수, ROUND(SUM(sale_amt)/ 100000000) 매출_억원 FROM box_office WHERE 1=1 AND EXTRACT(YEAR FROM release_date) = 2019 AND distributor IS NOT NULL AND sale_amt >= 10000000 GROUP BY QUARTER(release_date), distributor ORDER BY 1,2,3; SELECT QUARTER(release_date) 분기, distributor 배급사, COUNT(*) 영화편수, ROUND(SUM(sale_amt)/ 100000000) 매출_억원 FROM box_o..

format_list_bulleted Data Science/SQL
· 2022. 12. 29.
textsms

[R] 폴더 안의 파일 목록 가져오기

list.files(path, pattern = ) > getwd() [1] "C:/Users/Jay/Desktop/R_basic" > list.files(getwd()) [1] "[K-MOOC] 데이터과학을 위한 R프로그래밍_2021" [2] "corr_analysis.R" [3] "correlation test_iris.R" [4] "corrgram.png" [5] "dacon" [6] "moocr" [7] "pval.xlsx" [8] "Rplot.png" [9] "Rplot01.png" [10] "Rplot02.png" [11] "timeseries.R" [12] "상관분석_chart.png" [13] "상관분석_corrgram.png" > list.files(getwd(),pattern = '.x..

format_list_bulleted Data Science/R
· 2022. 12. 8.
textsms

벡터, 행렬의 연산 및 함수

벡터 및 행렬 생성 # 벡터, 행렬의 연산 및 함수 # 1. 벡터 및 행렬 생성 # 1.1 벡터 생성 # vector x

format_list_bulleted Data Science/R
· 2022. 12. 7.
textsms

[python] map 함수 사용법과 예제

[python] 파이썬 map 함수 사용법과 예제 안녕하세요. BlockDMask입니다. 오늘은 파이썬 map 함수에 대한 이야기를 해보려 합니다. 1. 파이썬 map 함수 설명과 사용법 2. 파이썬 map 함수 예제 1. map 함수 설명과 사용법 1-1) 파이썬 맵 함수 blockdmask.tistory.com

format_list_bulleted Data Science
· 2022. 6. 16.
textsms

[python] selenium element 클릭

https://wkdtjsgur100.github.io/selenium-does-not-work-to-click/ Selenium에서 특정 element가 갑자기 클릭이 되지 않을 때 (python) selenium을 이용해서 functional test를 쨔는 도중, 특정 element를 클릭하는 부분을 쨔야하는 경우가 있었는데, wkdtjsgur100.github.io

format_list_bulleted Data Science/python
· 2022. 3. 14.
textsms

[pandas] dataframe 행 추가/제거

pandas dataframe 행 추가 1. append() 2. loc() pandas 라이브러리에서 dataframe 자료형에 행을 추가하는 방법을 정리한다. 예제의 자료는 전 국민의 데이터인 kaggle 타이타닉 데이터셋의 train에서 몇 가지 컬럼만 가져와 사용하였다. import pandas as pd df = pd.read_csv('./dataset/data_titanic/train.csv') df = df[['PassengerId', 'Survived','Name','Sex']] df 1. append() appned() 메서드는 데이터프레임에 행을 추가하는 대표적인 방법이다. 새롭게 추하가는 자료의 형태는 시리즈나 딕셔너리, 데이터프레임 모두 사용 가능하다. 우선은 딕셔너리 형태의 새로운..

format_list_bulleted Data Science/python
· 2022. 2. 9.
textsms

[pandas] pandas_profiling 정리

pandas를 이용한 데이터 분석이나 ML/DL 알고리즘 적용 시에 사전 단계로 EDA를 실시할 때 획기적인 패키지가 존재한다. 처음 pandas를 이용해 데이터프레임을 요리조리 뜯어 볼 때에는 상관관계며, 데이터 타입이며, 기술 통계량이며 하나씩 코드를 입력해서 공부하는 과정을 거쳤다. 하지만, 실제 업무나 kaggle, dacon 대회에 참여할 때에 EDA를 간략하고 빠르게 수행하기 위해서 pandas profiling 패키지를 사용하는 것이 효율적이다. profiling 패키지는 판다스 데이터프레임 타입의 자료의 프로필 리포트를 작성해주는 패키지이다. describe() 의 기술통계량을 넘어서 상관관계 부터 최빈값, 결측값, 히스토그램 까지 한번에 HTML로 작성해서 보여준다. Type infere..

format_list_bulleted Data Science/python
· 2022. 2. 2.
textsms

sklearn.model_selection.GridSearchCV 정리

GridSearchCV : 교차검증 + 하이퍼 퍼라미터 튜닝 하이퍼 파라미터 튜닝을 위한 그리드 서치와 교차평가(CV)를 한번에 할 수있는 Sklearn api 지정한 하이퍼 파라미터를 순차적으로 입력하면서 최적의 파라미터를 도출할 수 있음 그리드 서치 경우의 수 x CV 횟수 만큼의 학습과 평가가 이루어짐 최적의 파라미터를 편리하게 찾을 수 있지만 수행시간이 상대적으로 오래걸림 GridSearchCV(estimator, param_grid, scoring=None, refit=True, cv=None) estimator : classifier, regressor, pipeline param_grid : 그리드 서치로 튜닝할 하이퍼 파라미터를 딕셔너리 형태로 넣음 scoring : 평가지표 cv : 교차..

format_list_bulleted Data Science/python
· 2022. 1. 30.
textsms

sklearn.model_selection.cross_val_score 인자 정리

KFold 교차 검증을 간편하게 할 수있는 사이킷런의 교차검증 API KFold 데이터 학습과 예측 프로세스 폴드 세트를 설정 for문을 통해 학습 및 테스트 데이터의 인덱스를 추출 반복하면서 학습과 예측수행하고 평겨 결과 반환 cross_val_score() 를 쓰면 한번에 해결 가능하다. → 폴드 세트 추출, 학습 및 예측, 평가 과정들을 한번에 수행 from sklearn.model_selection import cross_val_score cross_val_score(estimator,X,y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs') - estimator : classifier..

format_list_bulleted Data Science/python
· 2022. 1. 30.
textsms