구글 애널리틱스(GA, Google Analytics)는 웹 사이트나 모바일 앱 방문자들의 행동과 상호작용을 추적하고 분석하는 디지털 분석 도구다. GA는 다양한 데이터를 수집하고 이를 시각적으로 표현하면 웹 사이트의 성과를 평가하고 개선하는 데 도움을 준다. GA가 다른 분석 플랫폼에 비해 갖는 장점은 구글 마케팅 플랫폼(GMP, Google Marketing Platform)과 잘 어울린다는 것이다. 구글의 검색, 디스플레이, 쇼핑, 동영상, 앱 광고 등을 관리하는 구글 애즈Google Ads 또는 다른 디지털 마케팅 미디어 도구를 사용하는 경우 GA는 미디어 활성화 프로세스의 소스이자 허브가 된다. GA의 설정을 통해 구글의 다른 제품과 연결하고 잠재 고객 및 전환 데이터를 공유할 수도 있다.
GA의 기존 버전인 유니버설 애널리틱스(Universal Analytics)와 다른 새로운 버전의 구글 애널리틱스인 GA4(Google Analytics 4)는 디지털 마케팅 분석에 사용할 수 있는 가장 최신 데이터 모델이다. GA4는 단순히 데이터를 분석하는 것이 아니라 분석 결과에 따라 조치를 취할 수 있다. 예를 들어 잠재 고객 기능은 사용자를 분류하고 리마케팅, 타겟팅, A/B 테스트, 개인화를 위한 잠재 고객을 만들 수 있다. GA4의 가장 큰 장점은 샘플링되지 않은 원시 데이터를 빅쿼리(BigQuery)로 무료로 내보낼 수 있다는 것이다.
빅쿼리는 구글 애널리틱스 또는 GMP 전용이 아닌 구글 클라우드 데이터 웨어하우스다. 빅쿼리를 사용하면 구글 애널리틱스 데이터뿐만 아니라 소유하고 제어하는 모든 데이터를 데이터 웨어하우스로 내보낼 수 있다. 데이터가 구글 클라우드에 있으면 자유롭게 다른 데이터베이스로 보내고, 구글 애널리틱스 외부의 데이터와 통합하고 다른 도구에서 고급 리포팅을 수행할 수 있다. 빅쿼리는 고급 데이터 조작을 가능하게 하며 데이터 통합 문제 및 교차 플랫폼 데이터 수정에 탁월하다.
GA4를 빅쿼리와 통합하면 세분화된 데이터를 GA4에서 빅쿼리로 원활하게 전달할 수 있다. 따라서 원하는 방식으로 데이터를 분석하고 원하는 기간 동안 데이터를 보관하며 다른 데이터 소스를 가져와 웹 분석을 강화할 수 있다. 이처럼 GA4와 구글 클라우드 통합은 웹 사이트에서 단순히 무슨 일이 일어났는지 리포팅하는 것이 아니라 더 많은 데이터 활성화를 가능하게 해 모든 스트림에서 온라인 및 오프라인 데이터를 연결해 엔드투엔드(End-to-End) 마케팅 데이터를 제공한다.
이 책은 GA4와 빅쿼리 통합이 복잡한 데이터를 어떻게 단순화하고 마케팅 캠페인을 위한 실행 가능한 통찰력을 얻는 데 어떻게 도움이 되는지 안내하는 책이다. 또한 GA4와 구글 클라우드가 통합되는 방식과 이에 필요한 기술 및 리소스, 사용 사례에 대해 설명한다. 독자는 GA4와 구글 클라우드의 통합을 위한 데이터 흐름을 설계하는 프로세스를 알게 됨으로써 데이터에 기반을 둔 디지털 마케팅의 미래를 준비하게 될 것이다.
데이터 과학이나 데이터 엔지니어링 작업 중 80%는 데이터 수집, 변환, 정제와 같은 준비 작업이다. 나머지 20%의 작업이 통계, 머신러닝 또는 기타 다양한 분석 기업을 적용하는 것이다. 80% 추정치가 정확하지 않더라도 데이터를 다루는 대부분의 시간과 노력이 여기에 소비된다.
이처럼 데이터의 수집과 변환, 정제에 이르기까지 데이터 과학의 효율을 높이는 작업을 데이터 클리닝이라고 하며, 데이터 과학자라면 피할 수 없는 작업이다. 데이터 클리닝은 데이터 과학 및 머신 러닝 작업을 위한 데이터 파이프라인에서 시간이 많이 걸리고 중요한 작업이지만 가장 적게 언급되는 부분이다. 주로 책이 아닌 경험이나 시행착오를 통해 배우게 되지만 데이터 클리닝에 관한 적합한 책을 찾을 수 있다면 이러한 시간과 비용을 줄일 수 있다.
하지만 데이터 과학 관련 서적들이 주로 첫째 장에서만 데이터 준비 과정을 다루기 때문에 이론적 토대에 관한 지식을 제대로 전달하지 않고 관련 파이썬 및 R 패키지를 사용하는 방법만 보여준다. 이 책의 전반적인 구성은 데이터 과학 실무에서 개발할 데이터 파이프라인 단계와 유사한 순서로 배열돼 있으며 효율적인 데이터 과학을 위한 표준 데이터 파이프라인에서 해결해야 할 데이터 클리닝 문제를 다룬다.
광범위한 테이블 형식, 계층적 형식 등 여러 타입의 데이터 형식을 살펴보며 결측값을 보정하고 신뢰할 수 없는 데이터 및 통계적 이상치를 감지하고 합성하는 기술을 설명한다. 특히 다양한 형태의 데이터에 대한 구조적 문제와 내용적 문제를 짚어보고 유용하게 정리하는 방법의 장단점을 살펴본다. 또한 데이터 준비 과정에 대한 필수 내용을 구체화했고 실제 데이터 과학에서 응용할 수 있는 기술을 전달한다. 데이터 클리닝을 수행하기 위한 도구와 기술을 설명하고 새로 습득한 기술을 테스트하고 개선해 지식이 강화되도록 각 장의 끝부분에서는 자세한 실습을 제공하고 있다.
이 책에서 다루는 파이썬이나 R 코드를 감안할 때 이러한 언어에 대한 지식과 경험이 있는 것은 좋지만 전부 알고 있을 필요는 없다. 템플릿으로 사용할 수 있는 코드 예제가 많지만 코드의 이해나 잘라내기 및 붙여넣기 예제보다 사고방식과 사고 과정을 강조한다. 즉, 파이썬, 셸 스크립트, R을 모르더라도 몇 줄의 코드로 얼마나 많은 일을 할 수 있는지 보는 것만으로도 도움이 된다.
데이터 과학이나 AI 분야에서 일하는 사람이라면 누구나 이 책을 읽고 더 정제되고 유용한 데이터를 얻고자 프로세스를 구현하는 방법을 학습할 수 있을 것이다. 데이터를 준비하는 전처리 과정과 관련이 있는 독자에게 이 책을 강력히 추천하며 전산학 학위 취득을 위해 데이터 구조와 알고리즘을 배우는 시기에 읽을 것을 권장한다.
구글에서 'Data Science'로 검색하면 약 7천만 건의 결과가 나오고, '데이터 과학'으로 검색하면 70만 건의 한국어 검색 결과가 나온다. 데이터 과학 분야가 자리를 잡아가고 있음을 보여주는 유의미한 숫자다.
데이터 과학은 이미 오래전부터 통계, 수학, 프로그래밍 분야에서 존재해 왔다. 과거 '데이터 과학'은 그리 많지 않은 데이터 속에서 분야별로 추구하는 목적과 접근 방법이 달랐다면, 요즘은 잠자기 전까지도 손을 떼지 못하게 만드는 모바일 디지털 환경과 매 순간을 알리고 싶은 소셜 미디어 유저들의 활동으로 인해 기하급수적으로 늘어난 데이터를 과학적으로 해석하려는 것을 아우르는 개념이 '데이터 과학'이다.
이 책은 데이터 과학에서 통계, 수학, R과 파이썬 같은 프로그램을 왜 공부해야 하는지 확실히 알려준다. 데이터를 수집해서 정제하고, 유형을 살펴서 분석하고, 해석까지 필요한 원리를 복합적으로 다룬다. 꼭 필요한 최소한의 수학적 개념을 소개하지만, 수학 울렁증이 있는 사람도 쉽게 읽을 수 있다. 이 책을 읽고 나면 등한시했던 확률을 중심으로 수학과 통계를 재정립할 수 있다.
또한 데이터 과학의 원리를 전달하려는 이 책의 기본적 취지에 맞게 통계나 수학적 수식이 형성되는 개념도 설명해준다. 목적을 이해하고 원리를 알면 수식을 무작정 외울 필요가 없다는 것을 깨닫게 된다.
그리고 원리를 실행으로 옮겨 보기 위해 파이썬으로 실습할 수 있게 했다. 정확히 말하면 데이터 과학에 필요한 기본적인 파이썬 모듈을 익히게 된다. 프로그래밍을 잘 몰라도 파이썬 코드를 이해하기 쉽도록 기술했다. 읽어 갈수록 어렵다면 파이썬 내장 함수 구문을 따라 하기만 해도 된다. 핵심은 파이썬의 출력 결과를 정확히 해석하는 것이다.
단순히 통계 용어 풀이가 아니라, 다양한 예제를 통해 여러 관점에서 통계를 적용하는 안목을 키울 수 있다. 특히 현실적인 경험을 예제로 다루기 때문에 이해가 쉽고 나중에 응용하기에도 유리하다. 머신 러닝을 알게 되고 실습을 따라 해보면 딥러닝과 텐서플로도 엿볼 수 있다. 여러 가지 재미있는 예제도 많다. 안면 인식, 필체 감지, 트윗으로 주가 예측, 심지어 배우자의 외도를 예측하는 모델도 다룬다.
궁극적으로 이 책은 데이터 과학을 위해 기초 수학과 통계가 어떻게 연결돼 있는지 비밀을 푸는 열쇠를 제공한다.
이제 책을 펼쳐서 열쇠를 찾아보자!