알라딘

헤더배너
상품평점 help

분류

이름:닉 펜트레스 (Nick Pentreath)

최근작
2015년 12월 <Spark와 머신 러닝>

닉 펜트레스(Nick Pentreath)

금융 시장, 머신 러닝, 소프트웨어 개발 경력이 있다. 골드만삭스 그룹(Goldman Sachs Group, Inc.)에서 일했고, 스타트업 기업인 코그너티브 매치 사(Cognitive Match Limited)의 런던 지사를 상대로 온라인 광고에 필요한 리서치 분야 전문가로 일해 왔으며, 아프리카의 대규모 소셜 네트워크 회사인 믹스잇(Mixit)에서 데이터 사이언스와 분석팀을 이끌었다.
사용자 중심의 추천과 고객 인텔리전스(Customer Intelligence)를 주력으로 하는 빅데이터와 머신 러닝 회사 그래프플로우(Graphflow)의 공동 창립자다. 추천과 고객 인텔리전스의 핵심에 가치를 더하기 위해, 데이터를 통해 학습하는 지적 시스템을 구현할 수 있는 머신 러닝과 최신 기술을 상용 서비스와 접목하려는 일에 상당히 열정적이다. 아파치 스파크 프로젝트 관리 단체의 멤버다.
  

대표작
모두보기
저자의 말

<Spark와 머신 러닝> - 2015년 12월  더보기

최근 수집과 저장, 그리고 분석되는 데이터의 규모는 폭발적으로 증가했는데, 특히 웹과 모바일 단말을 사용할 때 발생하는 것뿐 아니라 센서 네트워크를 통해 물리적인 데이터와 연관해서 늘어나고 있다. 과거 대규모 데이터 스토리지, 프로세싱, 분석, 모델링은 구글, 야후, 페이스북, 트위터 등 공룡 기업의 영역이었으나 점차 많은 기업이 방대한 양의 데이터를 어떻게 처리해야 할지 도전에 직면하고 있다. 이와 같은 데이터 양과 실시간으로 이 데이터를 활용해야 하는 공통 요구 사항에 직면하고 있으나 인력으로 움직이는 시스템은 빠르게 쇠퇴하고 있다. 이런 현상은 빅데이터와 자동화된 의사결정을 만들기 위해 데이터를 이용해서 학습하는 머신 러닝의 태동을 불러왔다. 막대한 비용을 들이지 않고 대규모의 데이터를 다뤄야 하는 과제에 대한 해법이 컴퓨터 클러스터에 데이터 스토리지와 컴퓨팅 파워를 분산시켜 방대한 데이터를 좀 더 쉽게 처리하는 작업에 주력하는 구글, 야후, 아마존, 페이스북 같은 회사에서 속속 개발되고 있었다. 이런 기술 중에서 가장 많이 확산된 기술인 아파치 하둡을 통해 정말 쉽고 저렴하게 많은 데이터를 저장(하둡 분산 파일 시스템을 사용)하고, 저장된 데이터를 연산(컴퓨터 클러스터에 할당된 많은 노드에서 병렬로 연산 작업을 실행할 수 있는 프레임워크인 하둡 맵리듀스를 사용)할 수 있게 됐다. 그러나 맵리듀스는 각 잡을 실행하고 중간 데이터와 연산 결과를 디스크에 저장해야 하는 높은 오버헤드를 비롯한 일부 결정적인 단점이 있기 때문에 하둡은 반복이나 낮은 지연 시간을 포함하는 유스케이스에 상대적으로 부적합하다. 아파치 스파크는 분산 컴퓨팅을 위한 새로운 프레임워크이며, 제로 기반에서 설계해서 낮은 지연 시간 태스크를 위해 최적화돼 있고, 중간 데이터와 결과를 메모리에 저장할 수 있기 때문에 하둡 프레임워크의 주요 단점의 일부를 해결했다. 스파크는 애플리케이션을 작성할 수 있는 깔끔하고 기능적이며, 이해하기 쉬운 API를 제공하는 동시에 하둡 생태계와 완벽하게 호환된다. 게다가 스파크는 네이티브 API를 스칼라, 자바, 파이썬으로 제공한다. 스칼라 API와 파이썬 API를 이용하면 실시간과 의사소통할 수 있는 검색에 쓰이는 해당 인터프리터 사용을 비롯한 스파크 애플리케이션을 직접 개발할 때 API를 작성한 각 언어의 모든 장점을 사용할 수 있다. 현재 스파크 번들에 분산 머신 러닝과 데이터 마이닝 모델을 활용할 수 있는 툴킷이 포함돼 있는데, 이 툴킷은 한창 개발 중이며 많은 범용 머신 러닝 태스크를 위한 높은 성능을 발휘하고 확장할 수 있으며, 효과적인 알고리즘을 이미 포함하고 있고 툴킷의 기능 일부를 이 책에서 집중적으로 설명한다. 머신 러닝 기술을 방대한 데이터 집합에 적용하는 작업은 상당한 어려움이 있는데, 특히 대부분 잘 알려진 머신 러닝 알고리즘은 병렬 아키텍처를 고려하지 않고 있다. 많은 경우 머신 러닝 알고리즘을 설계하는 일은 쉽지 않은 작업이다. 머신 러닝 모델의 태생은 일반적으로 반복인데, 스파크는 바로 이런 유스케이스에 강하다. 병렬 컴퓨팅을 위해 많은 프레임워크가 경쟁 중인 가운데 스파크는 속도, 확정성, 인메모리 프로세싱, 그리고 쉽게 프로그래밍할 수 있는 시스템 실패 허용 한계(fault tolerance), 유연하면서 명시적이고 또한 강력한 API 설계를 모두 조합한 몇 안 되는 프레임워크 중 하나다. 이 책은 전반적으로 머신 러닝 기술을 이용해서 실생활에서 사용하는 애플리케이션 개발에 중점을 둘 것이다. 머신 러닝 알고리즘의 이론적인 측면을 일부 간략하게 설명할 수 있지만, 유용한 머신 러닝 시스템을 만들기 위해 이 책은 스파크와 MLlib의 모든 기능을 효과적으로 사용할 수 있는 방법을 설명하는데, 이때 예제와 코드를 사용할 뿐 아니라 머신 러닝과 데이터 분석을 위해 공개적으로 잘 알려져 있고 무료로 사용할 수 있는 패키지를 이용해서 주로 현실적이면서 적용 가능한 방법을 다룬다.

가나다별 l l l l l l l l l l l l l l 기타
국내문학상수상자
국내어린이문학상수상자
해외문학상수상자
해외어린이문학상수상자