리스크 컨설턴트 성장기
프로필 배경
프로필 로고

리스크 컨설턴트 성장기

    • 분류 전체보기 (157)
      • About. (1)
      • Risk Management (1)
        • Credit Risk (1)
      • Data Science (46)
        • python (41)
        • R (2)
        • SQL (2)
        • SAS (0)
      • STAT & MATH (3)
        • calculus (3)
      • Jay's Project (19)
        • wanted 채용 공고 분석 (8)
        • 포켓몬 소드&실드 리뷰 분석 (6)
        • 교보문고 책 추천시스템 구현 (5)
      • Algorithm (0)
      • Archive (8)
      • TIL (42)
      • Code Cloud (34)
        • python (34)
        • R (0)
      • Trouble Shooting (3)
      • 일상 (0)
  • mode_edit_outline글작성
  • settings환경설정
  • 홈
  • 태그
  • 방명록

csv 파일 불러올 때 Unamed 0 제거

df = pd.read_csv('wanted_content.csv', encoding='utf-8-sig') df = df.drop("Unnamed: 0", axis=1) df df = pd.read_csv('df.csv', index_col=0) df

  • format_list_bulleted Archive
  • · 2022. 1. 5.
  • textsms

Day 16

개인 미니 프로젝트 해보기 웹사이트 원티드 크롤링 및 konlpy로 워드클라우드 생성, job discription 분석 → 계속 진행할 예정 크롤링 수업 : requests, bs4 BeautifulSoup로 크롤링 하기

  • format_list_bulleted TIL
  • · 2022. 1. 4.
  • textsms

Day 15

수업 : 정규표현식 → 포스팅으로 정리 완료 / 예제 다시 풀어보기 개인 공부 wanted 웹 사이트 크롤러 완성!!!! → 해결되지 않은 부분 정리 및 포스팅 남기기 k-mooc 미분적분학 3강

  • format_list_bulleted TIL
  • · 2022. 1. 3.
  • textsms
[python] 정규 표현식 정리

[python] 정규 표현식 정리

정규표현식(regex) 일종의 문자를 표현하는 공식 → 특정 규칙이 있는 문자열 집합을 추출할 때 사용 HTML 태그를 사용한 크롤링 시 유용함 import re → 표준 모듈 re로 사용 1. 메타 문자(meta-characters) - 문자의 구성을 설명하기 위해 쓰이는 문자 [abc] one of / [ ] 내부의 문자와 매칭 / [ ] 에는 or 의미 / a or b or c = a | b| c [a-z] 문자의 범위 : a~z [^abc] none of 부정 / (a or b or c) 가 아닌 문자 ^abc 문자열의 시작 / 줄의 맨 앞의 abc만 매치 $abc 문자열의 끝 / 줄의 맨 끝의 abc만 매치 . \n 을 제외한 모든 문자 * 직전 패턴을 0번 이상 반복 (0도 가능 : 반복되지 ..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 3.
  • textsms
jupyter notebook 에서 dataframe 텍스트 정렬

jupyter notebook 에서 dataframe 텍스트 정렬

df.style.set_properties(**{'text-align: left/right'}) - right - left

  • format_list_bulleted Code Cloud/python
  • · 2022. 1. 3.
  • textsms
[python] selenium 크롤링에서 class/id/name이 없는 링크 태그 접근하기

[python] selenium 크롤링에서 class/id/name이 없는 링크 태그 접근하기

class 로 Card_className_u5rsb 까지는 접근했는데 도무지 저 href를 딸 수가 없어서 몇 시간을 썼는 지 모르겠다. 하이고...... 처음에는 driver.find_elements_by_css_selector('.Card_className_u5rsb') 접근해서 href로 링크를 가져오면 될 것 같았는데 계속 링크 정보가 포함이 안되었다. 기존에는 링크에 직접적으로 class/id/name 이 있어서 기계적으로 접근 할 수 있었는데 이번에는 자식인 a 태그로 접근을 해야했다. 저 쉬운 걸 몇 시간을 씨름하다가 결국 링크를 뱉어냈을 때 엄청난 희열을 느끼기는 했다.... 다음에는 바보 같은 짓 하지 말자.... urls = '.Card_className__u5rsb > a' url_r..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 3.
  • textsms
[python] selenium 네이버 뉴스 기사 크롤링

[python] selenium 네이버 뉴스 기사 크롤링

지난 번 네이버 블로그 크롤링과 유사하게 네이버에서 키워드 검색 후 관련 뉴스 기사 크롤링을 실습해 본다. 마찬가지로 처음에는 자동검색을 통해 url들을 수집한 뒤 pandas로 데이터프레임화 한 후 csv로 저장한다. 그 다음 csv를 로드한 뒤 url을 하나씩 열어 기사 본문과 댓글, 좋아요 등의 감정 수집까지 진행한다. 역시나 처음에는 전체 구조를 for문으로 만들기 전에 하나의 기사로 코드를 실험한다. 0. 라이브러리 & 모듈 - Selenium ActionChains : 여러 개의 동작을 체인으로 묶어서 저장하고 실행한다. - re : 정규표현식을 사용할 수 있는 모듈 # 라이브러리 import import pandas as pd import numpy as np from selenium imp..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 2.
  • textsms

[python] selenium 웹크롤러 정리

환경준비 파이썬(3.5, 3.6), selenium, BeautifulSoup from bs4 import BeautifulSoup # html 데이터를 전처리 from selenium import webdriver # 웹 브라우저 자동화 from selenium.webdriver.common.keys import Keys import chromedriver_autoinstaller import time # 서버 통신 시 시간 지연 0. 크롬창 띄우기 driver = webdriver.Chrome("chormedriver.exe") # 크롬 드라이버 로드(윈도우 기준, mac은 절대경로) dirver.get(url) # url 입력 ※ 크롬 드라이버 autoinstaller 이용 chrome_path =..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 2.
  • textsms
[python] selenium 네이버 블로그 크롤링(2)

[python] selenium 네이버 블로그 크롤링(2)

지난 포스팅에서는 selenium을 이용해 네이버 검색어를 자동으로 입력해서 블로그 제목과 url을 크롤링 해봤다. 이번에는 지난 포스팅에서 저장한 excel 파일을 불러와서 블로그 내용까지 크롤링하는 연습이다. 모듈&라이브러리 import sys import os import pandas as pd import numpy as np 파일 로드 후 확인 # "url_list.xlsx" 불러오기 url_load = pd.read_excel("blog_url.xlsx") url_load = url_load.drop("Unnamed: 0", axis=1) # 불필요한 칼럼 삭제 num_list = len(url_load) print(num_list) url_load 2. 크롬 드라이버 실행 및 url 입력 -..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 2.
  • textsms

pandas 딕셔너리를 데이터프레임으로 변환 DataFrame.from_dict()

DataFrame.from_dict(data, orient='columns') data : 딕셔너리, array-like orient 인수(데이터의 방향설정) : columns 기본값 orient = columns : 딕셔너리의 키를 열의 레이블로 설정 orient = index : 딕서녀리의 키를 행의 레이블로 설정 https://kongdols-room.tistory.com/106 DataFrame의 생성(from_dict, from_record) - pandas(5) 파이썬 버전 3.7 기준 pandas 버전 0.25.1 기준 DataFrame의 하위 메서드를 사용한 DataFrame의 생성 본 포스팅에서는 DataFrame을 구축하기 위한 from_dict() 메서드와, from_records()..

  • format_list_bulleted Code Cloud/python
  • · 2022. 1. 2.
  • textsms
  • «
  • 1
  • ···
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • ···
  • 16
  • »
공지사항
전체 카테고리
  • 분류 전체보기 (157)
    • About. (1)
    • Risk Management (1)
      • Credit Risk (1)
    • Data Science (46)
      • python (41)
      • R (2)
      • SQL (2)
      • SAS (0)
    • STAT & MATH (3)
      • calculus (3)
    • Jay's Project (19)
      • wanted 채용 공고 분석 (8)
      • 포켓몬 소드&실드 리뷰 분석 (6)
      • 교보문고 책 추천시스템 구현 (5)
    • Algorithm (0)
    • Archive (8)
    • TIL (42)
    • Code Cloud (34)
      • python (34)
      • R (0)
    • Trouble Shooting (3)
    • 일상 (0)
최근 글
인기 글
최근 댓글
태그
  • #Okt
  • #그리드서치
  • #matplotlib
  • #gridsearch
  • #자연어처리
  • #selenium
  • #리뷰분석
  • #nlp
  • #감성분석
  • #리뷰데이터
  • #CBF
  • #어간추출
  • #Wanted
  • #wordcloud
  • #python
  • #머신러닝
  • #Crawling
  • #sklearn
  • #키워드 픽
  • #seaborn
  • #데이터분석
  • #파이썬
  • #텍스트데이터분석
  • #decisionclassfier
  • #시각화
  • #KoNLPy
  • #책 분석
  • #추천시스템
  • #크롤링
  • #데이터분석가
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바