리스크 컨설턴트 성장기

1. Viewing data

방대한 내용에 배웠던 내용은 자꾸 헷갈리고 손코딩 실력도 늘지 않고 있다. 이에 혼자 실습하면서 깊게 고민도 해보고 또 각종 메서드를 정리하기 위해 시작하였다. 링크의 10 minutes to pandas 에서 소개하는 목차를 따라가되 데이터 셋은 kaggle의 타이타닉 train 데이터 셋을 사용하여 실제로 직접 적용하고 이해를 넓히고자 한다. 헷갈리지 않는 내용은 짧게 코드만 정리하고 고민을 했던 부분과 중요하다고 생각되는 항목은 캡처를 통해 흔적을 남겨 놓으려 한다. 또한 메서드 자체를 독립적으로 포스팅할 필요가 있다고 생각되면 이 포스팅에서 가져와 살을 붙이는 방식을 취한다. 10 minutes to pandas — pandas 1.3.5 documentation Note While standar..

format_list_bulleted Data Science/python
· 2021. 12. 22.
textsms

[pandas] 데이터 프레임 타입 변경 astype()

1. 타입 확인 : dtypes 2. 타입 변경 : astype('타입') - 원하는 컬럼의 타입만 바꾸기 astype({'columns':'type'})

format_list_bulleted Code Cloud/python
· 2021. 12. 21.
textsms

Day 7

1. pandas 마무리 : 타이타닉 data를 이용한 pandas 기초 공부 -> 익숙해질 때까지 계속 연습할 예정 - 101 Pandas Tips for Beginners Titanic 완료 : 2. Numpy Cheat Sheet : Numpy 기초 정리 -> 학부 때 배운 행렬대수학 책을 다시 한번 펼쳐야..... * 원래 무엇이든지 큰 틀을 잡고 체계적으로 정리하기를 좋아하는 편이지만 데이터 분석 공부는 그래서야 끝이 없겠다. 일단은 알게 되는 코드들, 지식들을 그때 그때 산발적으로 정리해 놓고 어느정도 쌓이면 정리를 한번 해야할 듯 하다. * pandas 를 중점으로 열심히 몸에 익혀나갈 예정 -> pandas 예제 꾸준히 반복하기

format_list_bulleted TIL
· 2021. 12. 21.
textsms

[pandas] 새로운 데이터 프레임 구성 df=[ [ '컬럼명1','컬럼명2'... ] ]

새로운 데이터 프레임 구성 df=[ [ '컬럼명1','컬럼명2'... ] ] 대괄호 두개를 쓰고 안에 가져올 컬럼명을 넣는다

format_list_bulleted Code Cloud/python
· 2021. 12. 21.
textsms

[pandas] 추출한 데이터프레임의 인덱스 제거 reset_index(drop= )

기존 데이터프레임에서 새로운 데이터프레임을 추출하여 만든 후 기존의 index 값을 reset 한다. index(drop=True) 는 기존의 index 값이 더 이상 필요없으니 삭제하라는 것 - df.loc[df['quantity']==3].head().reset_index(drop=True) quantity 컬럼 값이 3인 데이터를 추출하여 첫 5행 출력, index를 0부터 정렬

format_list_bulleted Code Cloud/python
· 2021. 12. 21.
textsms

[pandas] 특정 조건에 맞는 데이터 추출 df[df['컬럼명']==3]

- df[df['컬럼명']==3] - df.loc[df['컬럼명']==3]

format_list_bulleted Code Cloud/python
· 2021. 12. 21.
textsms

[pandas] 특정 컬럼의 유일값 찾기 df.컬럼명.unique()

- df.컬럼명.nunique() : 컬럼명의 유일값 갯수 출력 - df.컬럼명.unique() : 컬럼명의 유일값을 모두 출력

format_list_bulleted Code Cloud/python
· 2021. 12. 21.
textsms

수치형 변수의 기술 통계량 확인 df.describe()

- df.describe() : count/mean/std/min/quartile/max 등의 기술통계량 확인

format_list_bulleted Code Cloud/python
· 2021. 12. 21.
textsms

특정 자료형을 가진 데이터 출력 df.select_dtypes(exclude=object)

df.select_dtypes(exclude=object) - pandas에서 object는 문자열 Ans = df.select_dtypes(exclude= object) Ans.head() id거주인구근무인구방문인구총 유동인구평균 속도평균 소요 시간평균 기온일강수량평균 풍속 02244832249.9873418.266102709.092138377.34539.55629.1675.00.02.5 122449213500.99710341.172112692.789336534.95832.90030.9005.00.02.5 2224501212382.21896920.834541194.4811850497.53329.53835.6922.90.02.4 32245133991.6536034.25372155.919112181.825..

format_list_bulleted Code Cloud/python
· 2021. 12. 21.
textsms

01. 데이터 불러오기 및 데이터 확인

1. 데이터 로드 - df = pd.read_확장자 (대상, sep, encoding) - sep 인자 : \t 기준으로 구분 - encoding : "euc-kr" 한글 / UTF-8 DataUrl = 'https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv' df = pd.read_csv(DataUrl,sep='\t') 2. 상위, 하위 데이터 출력 - df.head() : 기본은 5개 - df.tail() : 기본은 5개 3. 데이터 구조 파악 - df.index : 인덱스 정보파악 df.index RangeIndex(start=0, stop=51490, step=1) - df.shape : 행과 열의 갯수 파악 df.shape (51490..

format_list_bulleted Data Science/python
· 2021. 12. 21.
textsms