본문내용 바로가기

교보eBook

교보문고eBook 로고가 필요하세요? 다운버튼을 누르면 원하는 형태의 로고를 다운 받으실 수 있습니다.

  • 흰색 배경 로고
    JPG down PNG down
  • 어두운 배경 로고
    JPG down PNG down
닫기
sam베이직
자동완성 펼치기

전체메뉴
미리보기

파이썬으로 웹 크롤러 만들기

초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법

라이언 미첼 지음| 한선용 옮김| 한빛미디어 |2019년 06월 18일 (종이책 2019년 03월 29일 출간)

  구매(소장)  
종이책 정가 25,000원
eBook 정가 20,000원
판매가 18,000 (10%↓+5%P)
  • 상품 정보

    소득공제

    상품 정보
    출간일 2019년 06월 18일 (종이책 2019년 03월 29일 출간)
    포맷용량 PDF(4.15MB, ISBN : 9791162248508)
    쪽수 358쪽(PDF기준)|

    이용가능 환경

    지원기기

    android / iOS / windows PC / sam

    기기 별 이용 유의사항

    eBook 전용단말기(sam단말기)
    대여eBook / PDF 50MB, ePUB 30MB 이상 / 멀티미디어 PDF(음원, 영상, 애니메이션을 포함한 eBook) 인 경우 열람불가
    iPad 구형 모델
    PDF 50MB, ePUB 30MB 이상 열람불가

    위와 같은 조건의 eBook은 일반 PC,스마트폰, 태블릿 등의 지원기기를 사용하셔야 읽을 수 있습니다.

    닫기
  • 카드 & 포인트 혜택

    5만원 이상 구매 시 통합포인트 2천원 추가적립

    카드/포인트 안내

    5만원 이상 구매 시 통합포인트 2천원 추가적립

    일반상품을 2천원 이상 포함하여 실 결제금액이 5만원 이상 구매 시 적용됩니다.
    (* 일반상품 : 잡지/외국도서,음반/DVD,기프트/오피스 상품)
    도서정가제에 따라 종이책/eBook 상품은 일반상품에서 제외 됩니다.
    중고장터 주문 건 제외 (온라인/모바일 주문 건에 한하여 적용)
    제공되는 혜택은 주문 건 별로 적용 가능, 2개 이상 주문 건을 합산하여 계산하지 않습니다.

    닫기

책소개

이 책이 속한 분야

웹 어디서든 내가 원하는 데이터를 쏙쏙쏙

웹에 존재한다면 그것이 어떤 형태이든 데이터로 추출할 수 있다. 필요한 무기는 이 책과 파이썬뿐. BeautifulSoup, 셀레니움, 테서랙트 등 강력한 파이썬 라이브러리 사용법과 함께 API, 인증, 이미지 및 텍스트 인식, 로그인 처리 등 웹 크롤링의 기초부터 고급 기법까지 종합적으로 다루는 유일한 책. 실제 업무와 생활에 적용할 수 있는 예제가 가득하다. 2판은 예제를 추가 및 업데이트했고 모던 웹에서 거의 모든 종류의 데이터를 가져오는 방법을 포괄적으로 다룬다.

상세이미지

파이썬으로 웹 크롤러 만들기 도서 상세이미지

목차

Part I 스크레이퍼 제작

CHAPTER 1 첫 번째 웹 스크레이퍼
1.1 연결
1.2 BeautifulSoup 소개
__1.2.1 BeautifulSoup 설치
__1.2.2 BeautifulSoup 실행
__1.2.3 신뢰할 수 있는 연결과 예외 처리

CHAPTER 2 고급 HTML 분석
2.1 닭 잡는 데 소 잡는 칼을 쓸 필요는 없습니다
2.2 다시 BeautifulSoup
__2.2.1 find()와 findAll()
__2.2.2 다른 BeautifulSoup 객체
__2.2.3 트리 이동 ...

저자소개

저자 : 라이언 미첼

저자 : 라이언 미첼
웹 크롤링, 보안, 데이터 과학에 관심이 많은 개발자. 현재 글로벌 펀드사 헤지서브(HedgeServ)에서 시니어 개발자로 근무하고 있습니다. 프랭클린 W. 올린 공과대학교를 졸업했고 하버드 대학교에서 소프트웨어 엔지니어링 석사 과정을 밟았습니다. 어바인(Abine)에서 웹 크롤러와 봇을 만들었고, 링크드라이브(LinkeDrive)에서는 API 및 데이터 분석 도구를 만들었습니다. 금융업 및 유통업 분야에서 웹 크롤링 프로젝트 컨설팅을 하고 있고, 교육과 강연 활동도 활발하게 펼치고 있습니다. 본서 외 저서로 『Instant Web Scraping with Java』(Packt, 2013)가 있습니다

역자 : 한선용
웹 표준과 자바스크립트에 관심이 많은 번역가. 2008년부터 웹 관련 일을 했으며, ‘WCAG 2.0을 위한 일반적 테크닉’ 등의 문서를 번역해 웹에 올렸습니다. 번역서로 『한 권으로 끝내는 Node & Express』(2015), 『자바스크립트를 말하다』(2014), 『데이터 시각화를 위한 데이터 인사이트』(2014), 『모던 웹을 요리하는 초간편 HTML5 Cookbook』(2012), 『Head First jQuery』(2012), 『jQuery Mobile』(2012), 『자바스크립트 성능 최적화』(2011, 이상 한빛미디어), 『자바스크립트 프로그래밍』(2013), 『처음 배우는 jQuery』(2012), 『에릭 마이어의 CSS 노하우』(2011, 이상 인사이트) 등이 있습니다.

역자 : 한선용

책속으로

* 현재 컨텐츠 정보를 준비 중에 있습니다.

출판사서평

복잡 다양한 웹에서 우아하게 데이터를 수집하는 방법 A to Z
우리는 생활 속의 많은 부분이 인터넷에서 이루어지는 시대에 살고 있습니다. 그 어느 때보다 많은 데이터로 넘쳐나는 웹 세상에서 필요한 데이터를 가져와 분석하는 일의 중요성도 커졌습니다. 인터넷을 활보하며 데이터를 수집하는 프로그램을 웹 크롤러 혹은 웹 스크레이퍼라고 합니다. 웹 크롤러는 데이터 수집을 자동화하므로 비즈니스 의사 결정에 큰 도움이 되고, 웹사이트 스캐너로 활용할 수도 있어 보안 분야에서도 사용됩니다.
웹 크롤링은 인증 같은 웹 기술에 대한 이해는 물론, 데이터 정제, DB 저장 등 여러 기술에 대한 지식이 필요한 분야에 속합니다. 따라서 프로그래밍 스킬을 향상하는 데에 아주 좋은 주제이며, 과거에는 프로그래밍 전문가만이 웹 크롤러를 만들 수 있었습니다. 하지만 파이썬이라는 배우기 쉬운 언어와 쉽게 쓸 수 있는 각종 라이브러리들이 등장하며 이러한 장벽은 무너졌습니다. 기업 사례뿐만 아니라 음원 차트 추출하기, 서울의 기온 데이터 추출하기, 게시판 문서 다운로더 등 주위를 둘러보면 의외로 많은 생활 속 사례를 찾을 수 있습니다.
『파이썬으로 웹 크롤러 만들기(2판)』는 웹 크롤링이라는 주제 하나에 집중하는 책입니다. 업무상 웹 크롤러를 만들다 푹 빠진 나머지 회사를 나와서도 계속 웹 크롤러를 만들고 있는 개발자가 썼습니다. 파이썬과 라이브러리를 이용하여 아주 간단한 웹 크롤러를 만드는 것으로 시작해서, HTML, API 등 웹 기술의 기초부터 데이터 정제 및 저장, 자연어 처리, 이미지 및 텍스트 인식 등 고급 기법까지 종합적으로 살펴봅니다.
책의 1부는 파이썬과 함께 BeautifulSoup, 스크레이피 같은 라이브러리를 이용하여 아주 간단하게 웹 크롤러를 만들어보며 시작합니다. 나아가 API를 이용한 수집, 데이터를 MySQL로 저장하는 방법, CSV, PDF, 워드 파일을 분석하는 방법까지 필요에 따라 다양한 라이브러리를 활용하여 웹 크롤러를 구현하는 방법에 집중합니다. 위키백과를 크롤링하며 ‘케빈 베이컨의 여섯 다리’(과연 전 세계 사람은 여섯 다리만 거치면 연결될까요?) 문제를 풀어보는 예제도 있습니다.
2부는 웹 크롤링을 둘러싼 더욱 흥미로운 주제와 기법을 다룹니다. 웹에서 가져온 지저분한 데이터를 정돈하고 정제하는 방법(오픈리파인), 자연어 처리(NLTK), 폼과 로그인 뚫기(requests), 자바스크립트로 만든 동적 페이지 수집하기(셀레니움), 이미지 처리(필로) 및 텍스트 인식(테서랙트), 웹사이트 테스트(unittest), 원격 크롤링(토어) 등 고급 기법과 라이브러리 사용법을 살펴봅니다. 특히 텍스트 인식은 CAPTCHA, 즉 자동 가입 방지 문자를 우회하는 데 유용하며, 크롤링을 막는 방해물을 뚫기 위한 ‘사람처럼 보이기’ 기법은 아예 한 장을 할애해서 자세히 소개합니다.
오늘날 데이터가 넘쳐나는 웹에서 웹 크롤러로 할 수 있는 일은 무궁무진합니다. 필요한 것은 약간의 파이썬 프로그래밍 능력 하나뿐입니다. 나머지는 이 책에서 배울 수 있습니다. 웹 크롤링을 적용하여 업무를 자동화하고 생활 속에서 유용한 통찰을 찾는 데 이 책이 큰 도움이 되리라 믿습니다. 복잡 다양한 웹 세상에서 우아하게 데이터를 수집하고 싶은, ‘일상의 데이터 분석가’를 꿈꾸는 이들에게 이 책을 권합니다.
이 책은 많은 사랑을 받은 1판에 이어 출간된 원서 2판을 기반으로 합니다. 예제를 추가 및 업데이트했고 모던 웹에서 거의 모든 종류의 데이터를 가져오는 방법을 포괄적으로 다룹니다.

Klover리뷰

구매하신 책에 Klover 평점/리뷰를 남겨주시면 통합포인트를 적립해 드립니다. 안내

평가/리뷰쓰기

북로그 리뷰

2

책속 한문장

0

* 현재 책속 한문장이 없습니다. 책속 한문장을 작성해주세요.

eBook 구매/이용 안내

  • 본 상품은 별도로 배송되지 않는 전자책 서비스입니다.
  • 본 상품은 인쇄/저장/편집 기능이 불가합니다.
  • 2014년 11월 21일부터 ‘개정 도서정가제’ 시행에 따라 신구간 구분 없이 기본 이벤트 할인과 적립을 포함하여 최대 15%까지만 제공됩니다.

단말기 안내

  • 구매하신 eBook은 저작권 보호를 위한 불법복제방지기술이 적용되어 있어,
    교보eBook을 지원하는 PC 전용 프로그램 [교보e서재]및 모바일 iOS/안드로이드 스마트폰/태블릿의 [교보eBook]전용 앱 , 교보 eBook 서비스를 지원하는 sam 전용 단말기에서만 열람이 가능합니다.
    단, 코믹스 상품의 경우 2018년 7월 1일 이후 등록된 상품은 sam 전용 단말기에서는 더 이상 서비스 지원 되지 않습니다.
  • 모바일 앱은 OS별 각 앱 스토어를 통해 전용[교보eBook]앱을 다운로드 받아 설치 후 이용 가능합니다.
    단, 코믹스 상품의 경우 2018년 7월 1일 이후 등록된 상품은 교보eBook앱 특정 버전 이상(Android v3.0.26, iOS v3.0.09, PC v1.4 버전 이상)부터 이용 가능하며 sam 전용 단말기에서는 더 이상 서비스 지원 되지 않습니다.
  • eBook 전용 단말기는 타사 안드로이드 OS 기반 단말기에 [교보eBook] apk파일을 별도 설치한 경우 서비스 이용 불가합니다.
  • eBook 전용 단말기인 경우, 대여eBook은 열람하실 수 없습니다. (sam단말기 등)
  • 한 번의 구매로 교보eBook을 지원하는 단말기 최대 5대까지 이용할 수 있습니다. (단, 중국 등 일부 해외에서 접속 시 IP 차단으로 서비스 이용 불가)
  • PC기기는 별도 기기 해지/설정관리가 아닌 전용 [교보e서재] 로그인을 통해 접근 가능합니다.
  • 이용 가능한 모바일 단말기의 변경을 원할 경우 [교보eBook모바일앱→설정→기기관리] 메뉴를 통해 기존 단말기 등록해지 후 신규 단말기 등록 설정할 수 있습니다.

컨텐츠 다운로드 열람 시 용량 제한 안내

  • eBook전용 sam 단말기의 경우 멀티eBook(ePUB3.0 ,멀티PDF), 용량 50MB이상의 파일은 정상 열람이 되지 않을 수 있습니다.
  • iOS, 안드로이드의 OS 버전이 최소 지원 가능 OS 버전보다 낮을 경우, 이용에 어려움이 있을 수 있습니다.

이용 안내

  • PC 교보e서재는 windows OS를 권장하며, 이외 가상머신 환경에 설치한 windows OS 및 Mac OS, 크롬북 OS에서는 컨텐츠 보안 문제로 서비스 이용이 불가합니다.
    (※ [e서재 처음만나기 → 시스템 권장사양]에서 상세 사양 확인가능 -바로가기-)
    (※ 윈도우 운영체제를 사용하고 있는 삼성 ATIV Tab, LG 탭북 계열 등 일부 제품 군에서는 교보e서재 동작이 원활하지 않을 수 있습니다.)
  • 상품에 부록이 있을 경우, 구매 후 [PC웹→마이룸→디지털콘텐츠] 메뉴를 통해 다운로드 받으실 수 있습니다.
    (출판사 사정에 따라, 해당 출판사 홈페이지 자료실을 통해서만 부록을 제공받을 수 있거나, 이용 제한이 있을 수 있습니다. 구매 전 상세페이지에서 부록 제공에 대한 상세 내용을 확인해주세요.)
ePUB이란?
eBook 파일과 단말기 간의 호환성 문제를 해소하기 위해 지정된 국제 표준 파일입니다.
글자크기, 글꼴, 줄간격 조정이 가능하여 최적의 독서환경을 제공합니다.
PDF란?
종이책의 판형과 편집 디자인을 그대로 디지털화 한 eBook 파일입니다.
글자크기, 글꼴, 줄간격 조정 대신 페이지 축소/확대로 이용 가능합니다.
* 참고 : PDF는 주석 기능(형광펜,메모 등)을 제공하지 않습니다.
ZIP이란?
만화 컨텐츠에 최적화하여 다수의 이미지를 압축한 만화 전용 서비스 파일입니다.
이미지 축소/확대로 이용이 가능하며 책갈피 기능이 제공됩니다.

반품/교환/환불 안내

  • eBook 상품은 구매 후 다운로드를 하지 않은 경우에 한해 구매일로부터 7일 이내 주문 취소가 가능합니다.
  • 디지털 교보문고의 전산오류를 제외한 고객님의 개인적인 사정으로 인한 환불 및 교환은 불가능합니다. 또한, 정액권과 이용권 사용기간 연장은 불가능합니다.
  • 고객센터 > 1:1상담 > 반품/교환/환불 을 통해 신청가능하고 마이룸 > 교환/반품 내역 에서 확인 가능합니다.
  • eBook 상품은 구매 후 다운로드 받은 경우 주문 취소가 불가능합니다 .
  • 오 등록된 상품인 경우 별도의 고지 없이 상품판매 중단/회수 등의 작업이 진행됩니다.

소비자 피해보상 환불지연에 따른 배상

  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨.
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함.

이 분야의 신상품

  • [프로그래밍 및 언어]
    아두이노 내친구 2편 라인트…
    7,000
    6,300

  • [프로그래밍 및 언어]
    실전 파이썬 디자인 패턴
    8,000

  • [프로그래밍 및 언어]
    생각대로 블록코딩 2 (아두…
    12,600
    11,340

  • [프로그래밍 및 언어]
    프로그래밍 가이드 북
    12,000
    10,800

  • [OA(사무자동화)]
    읽어보면 안다, 쏘쿨한 엑셀
    15,400
    13,860

더보기

이 분야의 베스트셀러

  • [프로그래밍 및 언어]
    Do it! 안드로이드 앱 프로…
    28,000

  • [프로그래밍 및 언어]
    안드로이드 스튜디오를 활용…
    17,000
    15,300

  • [프로그래밍 및 언어]
    파이썬 머신러닝 판다스 데…
    17,000
    15,300

  • [프로그래밍 및 언어]
    파이썬 라이브러리를 활용한…
    28,000
    25,200

  • [프로그래밍 및 언어]
    Do it! 점프 투 파이썬
    13,000
    11,700

더보기

바로가기

최근 본 상품