'Data Science/python' 카테고리의 글 목록 (4 Page)

pandas 데이터프레임에 컬럼 추가/제거 df['column'] ="Value" df.drop('column', axis=1, inplace=)

Dataframe에서 컬럼을 추가하고 제거하는 방법 정리하기. * 초기 Dataframe 1. 데이터프레임에 컬럼 추가 1) 모든 행이 같은 값을 가지는 열 추가 : 임의의 초기 값을 갖는 열을 추가할 때 유용함 df['column'] ="Value" 기존 data frame에 모든 행이 UK를 가지는 Country 칼럼을 추가 df['Country'] = "UK" 2) 각가 다른 값을 가지는 array를 dataframe에 column으로 추가 height = np.random.randint(150,200, size=891) : numpy 난수 발생 메서드를 이용하여 891개 항목의 array 생성 (numpy 난수 생성 참고 https://codetorial.net/numpy/random.html) ..

format_list_bulleted Data Science/python
· 2021. 12. 22.
textsms

파이썬 스타일 코드

파이썬 스타일 코드 : 파이썬에서 제공하는 함수, 문법들을 이용해서 코딩하는 것 - 종류 : split 함수, join 함수, list comprehension, enumerate 함수, zip함수, map함수, reduce함수 1. 문자열의 분리와 결합 : text 데이터 분석에 중요한 함수 split() : 문자열을 분리해서 리스트로 반환 join() : 리스트의 각 값을 결합하여 문자열로 반환 2. 리스트 컴프리헨션(list comprehension) : 리스트 안에 for문을 포함하여 간결하고 빠르게 for문 수행-> 가독성 good → 리스트와 for문 및 조건문을 함께 작성하여 가독성을 높인다 1) 필터링(filtering) : if문과 함께 사용하는 리스트 컴프리헨션 2) 중첩 반복문 3) ..

format_list_bulleted Data Science/python
· 2021. 12. 22.
textsms

자료구조 정리

자료 구조 : 특징이 있는 정보를 효율적으로 저장 및 반환하는 작업 파이썬의 자료구조 : 리스트/스택/큐/튜플/세트/딕셔너리/collections 모듈 등이 있음 데이터 엔지니어링, 사이언스 분야에서는 심도 깊은 이해가 필요한 분야 스택(stack) - LIFO ->Last In First Out : 마지막에 들어간 데이터가 가장 먼저 나오는 형태 - append(item) : 맨 끝에 항목 저장 - pop(index) : 인덱스를 인자로 데이터 추출(삭제) / default는 맨 마지막 항목 추출 * "_" 기호 : 해당 반복문에서 생성되는 값은 코드에 사용 하지 않음 -> 매개변수의 의미 없음 큐(que) - FIFO : 먼저 들어간 데이터가 가장 먼저 나오는 형태 - 스택과 반대 튜플(tuple) ..

format_list_bulleted Data Science/python
· 2021. 12. 22.
textsms

2. Selection

1. Getting : 컬럼 데이터 나타내기 - df['칼럼명'], df.칼럼명 : 하나의 칼럼을 series 형태로 가져오기 - df[['칼럼명1'],['칼럼명2]] : 다수의 칼럼을 data frame 형태로 가져오기 - df[0:2] : 행 인덱스로 데이터 프레임 슬라이싱 2. loc[] : Selection by label - 데이터프레임의 행이나 컬럼에 label이나 조건식으로 접근 - 행과 열의 lable을 통해 data frame 선택가능 * 행의 index를 이용, 아래의 titanic 자료는 행의 index가 행의 순서와 같기 떄문에 df.loc[0:3] 가능 -> 즉 0:3은 행의 순서가 아니다 * 아래의 자료는 행의 index가 dates 라는 날짜로 지정했기 때문에 오류가 발생한다...

format_list_bulleted Data Science/python
· 2021. 12. 22.
textsms

1. Viewing data

방대한 내용에 배웠던 내용은 자꾸 헷갈리고 손코딩 실력도 늘지 않고 있다. 이에 혼자 실습하면서 깊게 고민도 해보고 또 각종 메서드를 정리하기 위해 시작하였다. 링크의 10 minutes to pandas 에서 소개하는 목차를 따라가되 데이터 셋은 kaggle의 타이타닉 train 데이터 셋을 사용하여 실제로 직접 적용하고 이해를 넓히고자 한다. 헷갈리지 않는 내용은 짧게 코드만 정리하고 고민을 했던 부분과 중요하다고 생각되는 항목은 캡처를 통해 흔적을 남겨 놓으려 한다. 또한 메서드 자체를 독립적으로 포스팅할 필요가 있다고 생각되면 이 포스팅에서 가져와 살을 붙이는 방식을 취한다. 10 minutes to pandas — pandas 1.3.5 documentation Note While standar..

format_list_bulleted Data Science/python
· 2021. 12. 22.
textsms

01. 데이터 불러오기 및 데이터 확인

1. 데이터 로드 - df = pd.read_확장자 (대상, sep, encoding) - sep 인자 : \t 기준으로 구분 - encoding : "euc-kr" 한글 / UTF-8 DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv' df = pd.read_csv(DataUrl,sep='\t') 2. 상위, 하위 데이터 출력 - df.head() : 기본은 5개 - df.tail() : 기본은 5개 3. 데이터 구조 파악 - df.index : 인덱스 정보파악 df.index RangeIndex(start=0, stop=51490, step=1) - df.shape : 행과 열의 갯수 파악 df.shape (51490..

format_list_bulleted Data Science/python
· 2021. 12. 21.
textsms

리스트(list)

1. 리스트 생성 : 대괄호 [] 사용 movie_rank=["닥터 스트레인지", "스플릿", "럭키"] movie_rank ['닥터 스트레인지', '스플릿', '럭키'] 2. 리스트에 원소추가 - append(item) 리스트의 마지막에 원소추가 / append 메소드는 리스트의 원본 변경 -> 재귀함수x , 단계로 나눠써야함 movie_rank=["닥터 스트레인지", "스플릿", "럭키"] movie_rank = movie_rank.append("배트맨") print(movie_rank) None movie_rank=["닥터 스트레인지", "스플릿", "럭키"] movie_rank.append("배트맨") print(movie_rank) ['닥터 스트레인지', '스플릿', '럭키', '배트맨'] - ..

format_list_bulleted Data Science/python
· 2021. 12. 19.
textsms

문자열(string) (2)

1. upper 메서드 : 대문자 변경 2. lower 메서드 : 소문자 변경 3. capitalize 메서드 : 첫글자 대문자 변경 4. startswith, endswith 메서드 : 시작글자 끝글자 확인(Bool) -> 크롤링 및 전처리 활용 / 인자가 두개일 때 : 괄호추가 file_name = "2020_보고서.xlsx" file_name.startswith("2021") False file_name.endswith(("xlsx","xls")) True 5. split 메서드 : 문자열 나누기 a = "hello world" print(a.split(" ")) a ['hello', 'world'] 'hello world'

format_list_bulleted Data Science/python
· 2021. 12. 19.
textsms

문자열(string) (1)

1. 문자열 인덱싱 - 인덱싱 : 위치 지정, 0부터 시작/ -1은 맨뒤부터 시작 letters ='python' print(letters[0],letters[2]) p t 2. 문자열 슬라이싱 - 문자열에서 여러 글자를 나눠서 가져오는 것을 슬라이싱. - 음수 값은 문자열의 뒤에서부터 인덱싱 또는 슬라이싱함을 의미. license_plate = "24가 2210" print(license_plate[4:]) print(license_plate[-4:]) 2210 2210 - 슬라이싱에서 시작 인덱스를 생락하면 0으로 간주 - 끝 인덱스를 생략하면 문자열의 끝을 의미 - [시작 index : 끝 index(미만 개념) : setp index: 건너뜀을 의미(-1은 역으로 출력)] string = "홀짝홀..

format_list_bulleted Data Science/python
· 2021. 12. 19.
textsms

자료형 변환

1. 자료형 정리 - 숫자자료형 : int(정수), float(실수), complex(복소수) - 불린형 : boolean (True or Flase : 대문자 주의) - 군집형 : str(문자열), list, tuple, dic(딕셔너리), set 2. str(), int(), float() 으로 각 자료형으로 변환 가능 - int() : 숫자형태의 문자열에 컴마가 있는 경우 바로 변환불가 -> replace 메서드로 제거 상장주식수 = "5969782550" int(상장주식수) 5969782550 상장주식수 = "5,969,782,550" int(상장주식수) --------------------------------------------------------------------------- Valu..

format_list_bulleted Data Science/python
· 2021. 12. 19.
textsms