리스크 컨설턴트 성장기
프로필 배경
프로필 로고

리스크 컨설턴트 성장기

    • 분류 전체보기 (157)
      • About. (1)
      • Risk Management (1)
        • Credit Risk (1)
      • Data Science (46)
        • python (41)
        • R (2)
        • SQL (2)
        • SAS (0)
      • STAT & MATH (3)
        • calculus (3)
      • Jay's Project (19)
        • wanted 채용 공고 분석 (8)
        • 포켓몬 소드&실드 리뷰 분석 (6)
        • 교보문고 책 추천시스템 구현 (5)
      • Algorithm (0)
      • Archive (8)
      • TIL (42)
      • Code Cloud (34)
        • python (34)
        • R (0)
      • Trouble Shooting (3)
      • 일상 (0)
  • mode_edit_outline글작성
  • settings환경설정
  • 홈
  • 태그
  • 방명록
[pandas] dataframe/series 형태 train_test_split() 적용

[pandas] dataframe/series 형태 train_test_split() 적용

머신러닝, 딥러닝 시 Scikit-learn에서 데이터 분할에 사용되는 train_test_split() 메서드를 pandas dataframe 또는 seires 형태의 데이터에 적용해보자. train_test_split은 sklearn.model_selection 모듈에 포함되어 있다. 우선 피쳐들로 데이터 프레임을 구성한 뒤 마지막 컬럼에 타겟을 덧붙여 dataframe으로 구성한다. 그 후 iloc 인덱싱을 통해 피쳐와 타겟을 정의한 뒤 train_test_split() 적용하면 끝. from sklearn.model_selection import train_test_split from sklearn.datasets import load_iris # 사이킷런 아이리스 내장 데이터 로드 import ..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 30.
  • textsms
데이터 인코딩 (Data encoding)

데이터 인코딩 (Data encoding)

머신러닝 알고리즘에서는 문자열 데이터를 사용할 수 없으므로 모든 데이터를 숫자로 표현해야 한다. 범주형 데이터를 다루기 위해서는 모두 숫자값으로 변환해야 한다. 대부분의 머신러닝 라이브러리 또한 범주형 자료형이 정수로 인코딩 되어 있을 것으로 기대한다. 따라서 범주형 자료의 인코딩 방법을 정리해본다. 1. map을 이용한 인코딩 인코딩 값을 부여하는 순서가 중요한 경우에 사용한다. 이밖에 인코딩 방법들은 우열을 표현하지 못하거나 숫자, 알파벳, 한글 순으로 순서가 정해져 있으므로 직접 번호를 부여하는 map 방식도 자주 사용된다. dacon 집값 예측 데이터 셋 중에 Kitchen Qual 피처를 통해 실습한다. import pandas as pd df = pd.read_csv('C:/Users/Jay/..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 23.
  • textsms

SGD Classifier

https://inuplace.tistory.com/516 [scikit-learn 라이브러리] SGDClassifier (선형분류) 계산값을 기반으로 계산값이 0보다 작으면 -1, 0보다 크면 1로 분류한다. 이진 선형 분류기는 선, 평면, 초평면을 이용해 2개의 클래스를 구분하는 분류기이다. SGDClassifier SGDClassifier(alpha, average, cla inuplace.tistory.com

  • format_list_bulleted Data Science/python
  • · 2022. 1. 20.
  • textsms
[머신러닝] 분류 개요 : 결정 트리 (Decision Tree)

[머신러닝] 분류 개요 : 결정 트리 (Decision Tree)

분류(Classification) 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습하여 모델을 생성 생성된 모델에 새로운 데이터가 주어졌을 때 어떤 레이블에 속하는지 값을 예측한는 것 대표적인 분류 알고리즘 베이즈 통계 기반 나이브 베이즈(Naive Bayes) : 스팸 필터 선형 로지스틱 회귀 (Logistic Regression) : 이름은 회귀지만 대표적인 분류 알고리즘 / 강력한 이진 분류 선형 모델 데이터 균일도에 따른 규칙 기반의 결정 트리(Decision Tree) : 설명이 중요할 때 유용한 모델 근접 거리 기준의 최소 근접(Nearest Neighbor) 알고리즘 : KNN 알고리즘 (유클리디안 거리 이용) 심층 연결 기반의 신경망(Neural Network) :..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 19.
  • textsms
머신러닝 개요

머신러닝 개요

1. 머신 러닝(ML : Machine Learning) 개념 데이터에서 지식을 추출하여 예측하는 자기 학습 알고리즘과 관련된 인공지능의 하위분야로 머신러닝 출현 애플리케이션을 수정하지 않고도 데이터 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법 여러 특징(feature)를 가지는 복잡한 데이터를 기반으로 숨겨진 패턴을 인지하고 해결한다 알고리즘을 통해 예측 오류를 최소화하기 위한 수학적 기법 적용 데이터에서 효율적으로 지식을 추출하여 예측 모델과 데이터 기반 의사결정 능력을 점진적으로 향상시킴 2. 머신러닝의 세 가지 종류 현재 머신러닝은 지도학습(Supervised Learning), 비지도 학습(Un-supervised Learning), 강화학습(Reinforcement Learning)..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 15.
  • textsms
[Regression] 머신러닝 회귀분석 개요

[Regression] 머신러닝 회귀분석 개요

회귀 분석은 결과 또는 반응 변수가 다른 변수에 의해 예측될 수 있도록 두 개 혹은 그 이상의 양적변수의 관계를 분석하는 통계학적 방법론이다. 아주 쉽게, 두 양적 변수 사이에 어떤 관계가 있는지를 통계학적으로 알아보는 것이다. 간단히 두 개의 변수 사이에는 함수적 관계와 통계적 관계가 존재한다. 함수적 관계란 주어진 X값에서 어떤 함수가 이에 상응하는 Y 값을 가져오는 것을 말한다. 가장 단순한 일차함수의 경우이다. 이 때, 주어진 X값에서 상응하는 Y값은 직선상에의 한 점으로 나타난다. 그러나 통계적 관계란 함수적 관계와 달리 완벽한 것이 아니다. 일반적으로 통계적 관계의 관측치는 정확히 도출한 직선 상에 위치하지 않는다. 여기서 실제치와 예측치의 차이인 오차가 발생하는 것이다. 데이터 사이언스 분야..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 13.
  • textsms
[python] 정규표현식을 이용한 웹 페이지 스크레이핑

[python] 정규표현식을 이용한 웹 페이지 스크레이핑

meta 태그에서 인코딩 방식 추출하기 html meta태그 안에 인코딩 방식이 지정되어 있다. 각 페이지 별로 인코딩 방식이 다를 수 있기 떄문에 해당 url을 통해 html 자료를 스크래이핑 한후 meta 태그 부분을 선별해내어 인코딩 방식이 무엇인지 알아낸다. urllib.request 패키지를 통해 스크레이핑할 url을 가져오고 bytes 자료형으로 변환하여 읽어준다. 실습은 한빛출판사 웹 페이지를 대상으로 한다. import sys from urllib.request import urlopen # urlopen() 함수는 HTTPResponse 자료형의 객체를 반환합니다. f = urlopen('http://www.hanbit.co.kr/store/books/full_book_list.html'..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 5.
  • textsms

[python] 정규표현식 .*? 해석

https://qaos.com/article.php?sid=2432 QAOS.com | 정규식에서 *? 또는 +?의 의미 정규식에서 *? 또는 +?의 의미 게시일: 2006/06/29 | 글쓴이: doa | 12692 번 | 프린트 | 메일 사실 정규식은 유닉스에서만 사용할 수 있는 기능이었다. 그러나 펄의 정규식이 보편화되고 정규식의 강력함 qaos.com

  • format_list_bulleted Data Science/python
  • · 2022. 1. 5.
  • textsms
[python] 정규 표현식 정리

[python] 정규 표현식 정리

정규표현식(regex) 일종의 문자를 표현하는 공식 → 특정 규칙이 있는 문자열 집합을 추출할 때 사용 HTML 태그를 사용한 크롤링 시 유용함 import re → 표준 모듈 re로 사용 1. 메타 문자(meta-characters) - 문자의 구성을 설명하기 위해 쓰이는 문자 [abc] one of / [ ] 내부의 문자와 매칭 / [ ] 에는 or 의미 / a or b or c = a | b| c [a-z] 문자의 범위 : a~z [^abc] none of 부정 / (a or b or c) 가 아닌 문자 ^abc 문자열의 시작 / 줄의 맨 앞의 abc만 매치 $abc 문자열의 끝 / 줄의 맨 끝의 abc만 매치 . \n 을 제외한 모든 문자 * 직전 패턴을 0번 이상 반복 (0도 가능 : 반복되지 ..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 3.
  • textsms
[python] selenium 크롤링에서 class/id/name이 없는 링크 태그 접근하기

[python] selenium 크롤링에서 class/id/name이 없는 링크 태그 접근하기

class 로 Card_className_u5rsb 까지는 접근했는데 도무지 저 href를 딸 수가 없어서 몇 시간을 썼는 지 모르겠다. 하이고...... 처음에는 driver.find_elements_by_css_selector('.Card_className_u5rsb') 접근해서 href로 링크를 가져오면 될 것 같았는데 계속 링크 정보가 포함이 안되었다. 기존에는 링크에 직접적으로 class/id/name 이 있어서 기계적으로 접근 할 수 있었는데 이번에는 자식인 a 태그로 접근을 해야했다. 저 쉬운 걸 몇 시간을 씨름하다가 결국 링크를 뱉어냈을 때 엄청난 희열을 느끼기는 했다.... 다음에는 바보 같은 짓 하지 말자.... urls = '.Card_className__u5rsb > a' url_r..

  • format_list_bulleted Data Science/python
  • · 2022. 1. 3.
  • textsms
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • »
공지사항
전체 카테고리
  • 분류 전체보기 (157)
    • About. (1)
    • Risk Management (1)
      • Credit Risk (1)
    • Data Science (46)
      • python (41)
      • R (2)
      • SQL (2)
      • SAS (0)
    • STAT & MATH (3)
      • calculus (3)
    • Jay's Project (19)
      • wanted 채용 공고 분석 (8)
      • 포켓몬 소드&실드 리뷰 분석 (6)
      • 교보문고 책 추천시스템 구현 (5)
    • Algorithm (0)
    • Archive (8)
    • TIL (42)
    • Code Cloud (34)
      • python (34)
      • R (0)
    • Trouble Shooting (3)
    • 일상 (0)
최근 글
인기 글
최근 댓글
태그
  • #데이터분석
  • #추천시스템
  • #decisionclassfier
  • #머신러닝
  • #seaborn
  • #CBF
  • #nlp
  • #그리드서치
  • #sklearn
  • #리뷰분석
  • #파이썬
  • #어간추출
  • #selenium
  • #시각화
  • #KoNLPy
  • #wordcloud
  • #Crawling
  • #python
  • #감성분석
  • #Wanted
  • #리뷰데이터
  • #크롤링
  • #데이터분석가
  • #책 분석
  • #gridsearch
  • #Okt
  • #matplotlib
  • #자연어처리
  • #키워드 픽
  • #텍스트데이터분석
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바