성균관대학교 컴퓨터공학부를 졸업하고 안랩에서 3년간 보안 관제 업무를 맡았다. 3년간의 근무 기간 중 데이터 분석에 큰 관심을 갖게 돼 퇴사한 후, 영국에 있는 워릭대학교(University of Warwick)에서 데이터 마이닝 석사 과정을 마쳤다. 현재는 안랩에서 보안 데이터 분석 업무를 맡고 있다.
전체적인 내용이 그다지 난해하지는 않은 책으로, 파이썬과 스파크를 이용해 분석 시스템 기반을 마련하고 활용하는 단계까지 올라가고자 할 때 함께할 개념서로 적합하다.
이 책의 가장 큰 장점은 개념이나 코드 등의 설명이 상당히 명확하다는 것이다. 책의 난이도가 그리 높지 않아서 쉽게 이해되는 면도 있으나, 저자의 문장력이 상당히 명확한 편이라고 느꼈다. 다소 불필요한 설명도 일부 포함돼 있으나 그 양이 많지 않아서 전체적으로 책의 내용을 이해하는 데 큰 영향을 주지는 않는다.
이 책의 초반에서는 스파크의 동작 원리와 구성 요소 등을 설명한다. 스파크가 왜 고속 처리나 분산 처리에 유리한 구조를 갖췄는지, 속도 개선에 가장 큰 영향을 준 부분은 어느 곳인지 이해하기 쉽게 설명했다. 중반에서는 스파크 분석 라이브러리 사용법과 그 라이브러리를 이용한 실제 데이터 분석에 초점을 맞추고 있다. 실제 데이터를 분석하는 과정에서 데이터를 어떻게 클리닝 및 전처리해야 하는지 약간의 수학적, 통계적 지식을 이용해 설명하고, 그렇게 전처리된 결과를 스파크에서 지원하는 분석 라이브러리를 통해 결과를 내고, 그 결과를 데이터 분석가의 입장에서 해석하는 부분도 다룬다. 끝에서는 실시간 분석과 애플리케이션 패키지화를 살펴본다. 실시간으로 들어오는 데이터를 처리하고 테스트하는 방법과 최종적으로 만들어진 애플리케이션을 스파크 혹은 다른 방법을 통해 패키지화하는 방법을 다룬다.