리스크 컨설턴트 성장기

csv 파일 불러올 때 Unamed 0 제거

df = pd.read_csv('wanted_content.csv', encoding='utf-8-sig') df = df.drop("Unnamed: 0", axis=1) df df = pd.read_csv('df.csv', index_col=0) df

format_list_bulleted Archive
· 2022. 1. 5.
textsms

Day 16

개인 미니 프로젝트 해보기 웹사이트 원티드 크롤링 및 konlpy로 워드클라우드 생성, job discription 분석 → 계속 진행할 예정 크롤링 수업 : requests, bs4 BeautifulSoup로 크롤링 하기

format_list_bulleted TIL
· 2022. 1. 4.
textsms

Day 15

수업 : 정규표현식 → 포스팅으로 정리 완료 / 예제 다시 풀어보기 개인 공부 wanted 웹 사이트 크롤러 완성!!!! → 해결되지 않은 부분 정리 및 포스팅 남기기 k-mooc 미분적분학 3강

format_list_bulleted TIL
· 2022. 1. 3.
textsms

[python] 정규 표현식 정리

정규표현식(regex) 일종의 문자를 표현하는 공식 → 특정 규칙이 있는 문자열 집합을 추출할 때 사용 HTML 태그를 사용한 크롤링 시 유용함 import re → 표준 모듈 re로 사용 1. 메타 문자(meta-characters) - 문자의 구성을 설명하기 위해 쓰이는 문자 [abc] one of / [ ] 내부의 문자와 매칭 / [ ] 에는 or 의미 / a or b or c = a | b| c [a-z] 문자의 범위 : a~z [^abc] none of 부정 / (a or b or c) 가 아닌 문자 ^abc 문자열의 시작 / 줄의 맨 앞의 abc만 매치 $abc 문자열의 끝 / 줄의 맨 끝의 abc만 매치 . \n 을 제외한 모든 문자 * 직전 패턴을 0번 이상 반복 (0도 가능 : 반복되지 ..

format_list_bulleted Data Science/python
· 2022. 1. 3.
textsms

jupyter notebook 에서 dataframe 텍스트 정렬

df.style.set_properties(**{'text-align: left/right'}) - right - left

format_list_bulleted Code Cloud/python
· 2022. 1. 3.
textsms

[python] selenium 크롤링에서 class/id/name이 없는 링크 태그 접근하기

class 로 Card_className_u5rsb 까지는 접근했는데 도무지 저 href를 딸 수가 없어서 몇 시간을 썼는 지 모르겠다. 하이고...... 처음에는 driver.find_elements_by_css_selector('.Card_className_u5rsb') 접근해서 href로 링크를 가져오면 될 것 같았는데 계속 링크 정보가 포함이 안되었다. 기존에는 링크에 직접적으로 class/id/name 이 있어서 기계적으로 접근 할 수 있었는데 이번에는 자식인 a 태그로 접근을 해야했다. 저 쉬운 걸 몇 시간을 씨름하다가 결국 링크를 뱉어냈을 때 엄청난 희열을 느끼기는 했다.... 다음에는 바보 같은 짓 하지 말자.... urls = '.Card_className__u5rsb > a' url_r..

format_list_bulleted Data Science/python
· 2022. 1. 3.
textsms

[python] selenium 네이버 뉴스 기사 크롤링

지난 번 네이버 블로그 크롤링과 유사하게 네이버에서 키워드 검색 후 관련 뉴스 기사 크롤링을 실습해 본다. 마찬가지로 처음에는 자동검색을 통해 url들을 수집한 뒤 pandas로 데이터프레임화 한 후 csv로 저장한다. 그 다음 csv를 로드한 뒤 url을 하나씩 열어 기사 본문과 댓글, 좋아요 등의 감정 수집까지 진행한다. 역시나 처음에는 전체 구조를 for문으로 만들기 전에 하나의 기사로 코드를 실험한다. 0. 라이브러리 & 모듈 - Selenium ActionChains : 여러 개의 동작을 체인으로 묶어서 저장하고 실행한다. - re : 정규표현식을 사용할 수 있는 모듈 # 라이브러리 import import pandas as pd import numpy as np from selenium imp..

format_list_bulleted Data Science/python
· 2022. 1. 2.
textsms

[python] selenium 웹크롤러 정리

환경준비 파이썬(3.5, 3.6), selenium, BeautifulSoup from bs4 import BeautifulSoup # html 데이터를 전처리 from selenium import webdriver # 웹 브라우저 자동화 from selenium.webdriver.common.keys import Keys import chromedriver_autoinstaller import time # 서버 통신 시 시간 지연 0. 크롬창 띄우기 driver = webdriver.Chrome("chormedriver.exe") # 크롬 드라이버 로드(윈도우 기준, mac은 절대경로) dirver.get(url) # url 입력 ※ 크롬 드라이버 autoinstaller 이용 chrome_path =..

format_list_bulleted Data Science/python
· 2022. 1. 2.
textsms

[python] selenium 네이버 블로그 크롤링(2)

지난 포스팅에서는 selenium을 이용해 네이버 검색어를 자동으로 입력해서 블로그 제목과 url을 크롤링 해봤다. 이번에는 지난 포스팅에서 저장한 excel 파일을 불러와서 블로그 내용까지 크롤링하는 연습이다. 모듈&라이브러리 import sys import os import pandas as pd import numpy as np 파일 로드 후 확인 # "url_list.xlsx" 불러오기 url_load = pd.read_excel("blog_url.xlsx") url_load = url_load.drop("Unnamed: 0", axis=1) # 불필요한 칼럼 삭제 num_list = len(url_load) print(num_list) url_load 2. 크롬 드라이버 실행 및 url 입력 -..

format_list_bulleted Data Science/python
· 2022. 1. 2.
textsms

pandas 딕셔너리를 데이터프레임으로 변환 DataFrame.from_dict()

DataFrame.from_dict(data, orient='columns') data : 딕셔너리, array-like orient 인수(데이터의 방향설정) : columns 기본값 orient = columns : 딕셔너리의 키를 열의 레이블로 설정 orient = index : 딕서녀리의 키를 행의 레이블로 설정 https://kongdols-room.tistory.com/106 DataFrame의 생성(from_dict, from_record) - pandas(5) 파이썬 버전 3.7 기준 pandas 버전 0.25.1 기준 DataFrame의 하위 메서드를 사용한 DataFrame의 생성 본 포스팅에서는 DataFrame을 구축하기 위한 from_dict() 메서드와, from_records()..

format_list_bulleted Code Cloud/python
· 2022. 1. 2.
textsms