Day 12
네이버 블로그 크롤링 - 우리 동네 맛집 블로그 크롤링 실습 - 코드 하나씩 뜯어가면서 이해하기 (정리중)
- TIL
- · 2021. 12. 31.
pandas 결측값 채우기 : df.fillna(value=)
pandas 결측값 채우기,대체하기 : df.fillna(value=)
- Code Cloud/python
- · 2021. 12. 28.
iframe이 있으면 이름을 출력해준다. # 프레임 살펴보기 iframes = driver.find_elements_by_css_selector('iframe') for iframe in iframes: print(iframe.get_attribute('name'))
첫번째 크롤링 예제이다. 네이버 블로그에 검색어 입력 후에 나오는 블로그들을 크롤링하고 저장해본다. 검색어를 입력하고 스크롤까지 누르기 때문에 Selenium 모듈을 사용한다. (사실 selenium만 배운상태...) selenium의 장점은 다음 블로그를 참조하였다. https://www.hanumoka.net/2020/07/05/python-20200705-python-selenium-install-start/ Selenium 설치하기 및 크롤링 예제 들어가기python으로 크롤링을 할 때, 크롤링 대상인 웹 페이지에 동적인 동작을 곁들여서 크롤링을 할 수 있게 도와주는 라이브러리가 있는데, 그것이 selenium 이다. selenium 장점 웹 드라이버를 사 www.hanumoka.net 0. 모듈..
크롤링 4일차 - 네이버 뉴스 기사 크롤링 - 인스타그램 크롤링 - 네이버 영화배우 수상내역 크롤링 - 유튜브 리뷰 크롤링 아주 어렵다. CSS에 대한 이해가 깊지 않으니 태그, id, class로 접근하는데 애를 먹고 있다. class를 찾았다해도 왠지 작동하지 않을때도 많고 부모 태그까지 경험적으로 해봐야 아는 부분도 있다. 또한 막상 접근 방법을 찾아도 코드로 구현하는 단계에서도 녹록치 않다. 마음은 다른 사이트 크롤러를 막 응용해서 짜고 싶은데 몇 시간을 투자해도 크롤링 하나 하기가 쉽지 않다. 주말은 크롤링을 조지자.
네이버 블로그 크롤링 정리 - pandas로 데이터프레임화 까지 네이버 뉴스 기사 크롤링 - 실습 적용, 기사마다 구조가 조금씩 다름 - 헤드라인, 본문, 좋아요/싫어요 등등 감성분석 - iframe 구조 존재 ※ 수업 종료 후 개인적으로 데이터 시각화 시도함 → konlpy와 통해서 wordcloud 만들고 예전에 R로 해봤던 것처럼 PCA 등등 시도라도 해보려고 함 → konlpy가 정말 드럽게 안깔림.... wordcloud도 마찬가지.... 결국 하루를 꼬박투자해서 어찌 설치는 되었음..
네이버 블로그 크롤링 - 우리 동네 맛집 블로그 크롤링 실습 - 코드 하나씩 뜯어가면서 이해하기 (정리중)
1. CSS - HTML 문서의 색이나 모양 등 외관을 꾸미는 언어 - CSS로 작성된 코드를 스타일 시트(style sheet)라고 부름 - 스타일 시트 구성 span { color : blue; font-size : 20px; } /* span 태그 스타일 선언 */ 셀렉터 { 프로퍼티 : 값; 프로퍼티 : 값; } /* 주석문 */ 셀렉터 : CSS 스타일 시트를 HTML 페이지에 적용하도록 만든 이름 프로퍼티 : 스타일 속성 이름 값 : 프로퍼티의 값 스타일 시트는 대소문자의 구분 없음 - 작성방법 태그에 스타일 시트 작성 style 속성에 스타일 시트 작성 스타일 시트를 별도 파일로 작성 ex) 태그, @import - 유의사항 태그는 2. 셀렉터(selector) - HTML 태그의 모양을 꾸..
프로그래밍 기초 test 데이터 크롤링 및 시각화 1차시 HTML 기초 개념 HTML 문법: 태그 웹 클라이언트, 서버, 클라이언트의 개념 웹 페이지 구성 3요소 : 3요소를 분리하여 개발 HTML : 웹 페이지의 구조와 내용 CSS : 웹 페이지의 모양, 디자인 → 크롤링 시 위치를 파악할 수 있음 Javascript : 웹 페이지 행동 및 응용 프로그램 → 동적인 움직임, 사용자 인터페이스 네이버 블로그 기초 크롤링 코드 실행 선형대수학 및 Numpy가 걱정이 되었으나 테스트는 무난히 합격했다. 새로운 주제인 데이터 크롤링 수업이 시작되었다. 약 3년 전 코딩이 빅데이터 용어가 나오기 시작할 무렵, 지인의 추천으로 생활코딩에서 정말 간단하게 html을 배운 적이 있었다. 그래도 한 번 경험을 해봤다고..
주석 : 코드의 내용을 설명 / 유지보수, 인수인계 시 중요함 HTML : CSS : /* 코멘트할 내용 */ Javascript // 코멘트할 내용 // 줄바꿈 태그 (new line) : 내용 / 닫히는 태그 없음 (paragraph) : 내용 이미지 넣기 : img태그 & 속성(attribute) - img태그 만으로 이미지 정보가 부족할 때, 속성을 이용해 추가정보를 가져 온다. / 속성: src, width 등 src : 이미지 파일 url / alt : 출력할 수 없는 경우 출력되는 문자열 / width : 폭 / height : 너비 리스트 태그 순서 없는 리스트 태그(unordered) : , / , () 순서 있는 리스트 태그(ordered) : , / 정의 리스트(definition) ..
pandas 결측값 확인 : pd.isna(데이터프레임) -> Boolean 으로 데이터프레임 결과 보여줌 pd.isna(데이터프레임)sum() -> 간단히 nan이 몇개 존재하는지 파악에 유용
pandas 결측값 채우기,대체하기 : df.fillna(value=)