알라딘

헤더배너
상품평점 help

분류

이름:캐서린 자멀 (Katharine Jarmul)

최근작
2018년 12월 <파이썬 웹 스크래핑 2/e>

캐서린 자멀(Katharine Jarmul)

독일 베를린에 살고 있는 데이터 과학자이자 파이썬 개발자다. 여러 기업을 대상으로 데이터 추출, 수집, 모델링과 같은 서비스를 제공하는 데이터 과학 컨설팅 회사인 Kjamistan을 운영하고 있다. 2008년부터 파이썬으로 프로그램을 개발하고 있으며, 2010년부터 파이썬으로 웹을 스크래핑하기 시작했다. 데이터 분석과 머신 러닝을 하기 위해 웹 스크래핑을 활용하는 다양한 회사에서 일한 적이 있다. 웹을 스크래핑하지 않을 때는 트위터(@kjam) 또는 블로그(https://blog.kjamistan.com)를 통해 자신의 생각과 활동을 작성하고 있다.  

대표작
모두보기
저자의 말

<파이썬 웹 스크래핑 2/e> - 2018년 12월  더보기

인터넷에는 매우 유용한 데이터가 존재한다. 대부분의 데이터는 공개돼 있고 무료로 접근할 수 있다. 그러나 이 데이터는 쉽게 사용할 수 없다. 웹 사이트의 구조와 스타일에 포함돼 있기 때문에 신중하게 추출해야 한다. 웹 스크래핑은 온라인에서 사용할 수 있는 풍부한 정보를 수집한 후 정보를 이해하는 수단으로 점점 더 유용해지고 있다. 이 책은 파이썬 3.7의 최신 기능을 사용해 웹 사이트에서 데이터를 스크래핑할 수 있는 최고의 가이드를 제공한다. 이 책의 초반의 여러 장에서는 정적 웹 페이지에서 데이터를 추출하는 방법을 설명한다. 레디스와 파일을 캐싱으로 사용해 시간을 절약하고 서버의 부하를 관리하는 방법을 배울 것이다. 기본적인 내용을 다룬 후에 브라우저, 크롤러, 병렬 스크래퍼를 사용해 더 정교한 크롤러를 직접 구현해 볼 것이다. PyQt와 Selenium을 사용해 자바 스크립트를 의존하는 웹 사이트에서 언제 어떻게 데이터를 스크래핑할 수 있는지 결정할 수 있을 것이다. 캡차(CAPTCHA)로 보호되는 복잡한 웹 사이트에 폼을 제출하는 방법에 대해 더 잘 이해할 수 있을 것이다. 또한 Scrapy 라이브러리로 클래스 기반 스크래퍼를 생성하는 방법을 살펴본 후 다뤘던 모든 지식을 활용해 실제 웹 사이트를 대상으로 스크래퍼을 구현할 것이다. 이 책을 다 읽고 나면 스크래퍼, 원격 스크래핑, 모범 사례, 캡차 해결하기, 기타 관련된 많은 주제를 활용해 웹 사이트를 탐험할 수 있을 것이다.

가나다별 l l l l l l l l l l l l l l 기타
국내문학상수상자
국내어린이문학상수상자
해외문학상수상자
해외어린이문학상수상자