전체적인 내용이 그다지 난해하지는 않은 책으로, 파이썬과 스파크를 이용해 분석 시스템 기반을 마련하고 활용하는 단계까지 올라가고자 할 때 함께할 개념서로 적합하다.
이 책의 가장 큰 장점은 개념이나 코드 등의 설명이 상당히 명확하다는 것이다. 책의 난이도가 그리 높지 않아서 쉽게 이해되는 면도 있으나, 저자의 문장력이 상당히 명확한 편이라고 느꼈다. 다소 불필요한 설명도 일부 포함돼 있으나 그 양이 많지 않아서 전체적으로 책의 내용을 이해하는 데 큰 영향을 주지는 않는다.
이 책의 초반에서는 스파크의 동작 원리와 구성 요소 등을 설명한다. 스파크가 왜 고속 처리나 분산 처리에 유리한 구조를 갖췄는지, 속도 개선에 가장 큰 영향을 준 부분은 어느 곳인지 이해하기 쉽게 설명했다. 중반에서는 스파크 분석 라이브러리 사용법과 그 라이브러리를 이용한 실제 데이터 분석에 초점을 맞추고 있다. 실제 데이터를 분석하는 과정에서 데이터를 어떻게 클리닝 및 전처리해야 하는지 약간의 수학적, 통계적 지식을 이용해 설명하고, 그렇게 전처리된 결과를 스파크에서 지원하는 분석 라이브러리를 통해 결과를 내고, 그 결과를 데이터 분석가의 입장에서 해석하는 부분도 다룬다. 끝에서는 실시간 분석과 애플리케이션 패키지화를 살펴본다. 실시간으로 들어오는 데이터를 처리하고 테스트하는 방법과 최종적으로 만들어진 애플리케이션을 스파크 혹은 다른 방법을 통해 패키지화하는 방법을 다룬다.