서울대학교 통계학과 이학박사를 취득하고 미래에셋 퇴직연금연구소에 입사하여 연금과 은퇴 설계에 관한 연구를 수행한 후, 통계청 통계사무관과 UN 파견으로 인구, 가구 추계, 인구동태통계 개선 등의 연구와 실무 경험을 쌓았으며, 국립한밭대학교 수리과학과, 노마드칼리지 기초과학부에서 기초, 응용, 수리통계학, 통계로 보는 세상, 데이터 모델링 등을 가르치고 있다. 통계청의 국가통계자료제공심의회, 포괄적연금통계개발 전문가자문위원, 관세청의 빅데이터 자문위원회 위원, 한국보건사회연구원의 재정통계연구자문위원, 통계교육원 통계와 정책, 품질관리, 통계 기초와 활용, 빅데이터 행정자료 이해 등의 교육을 담당하고 있다. 그리고 최적화 공정 설계, 인구, 가구 예측, 마이크로시뮬레이션, 빅데이터 분석에 대한 SCI(E), KCI 논문게재와 저서집필 및 정부부처 자문과 연구용역 등을 수행하고 있다.
머리말
현대 사회에서 빅데이터(Big Data)는 21세기의 원유라고 비유할 정도의 소중한 자원 중 하나로 자리매김하고 있으며, 학계·기업·정부기관 등의 다양한 분야에서 그 중요성이 더욱 커지고 있다. 이에 따라 빅데이터로부터 주요 정보를 효과적으로 도출하고 분석하기 위한 기술과 인력 역시 매우 필요한 실정이다. 빅데이터는 숫자, 이미지, 영상, 문자, 위치정보 등 종류가 다양하다. 이렇게 다양한 종류의 시각화와 분석 방법 중 데이터 모델링(Data Modeling)은 빅데이터의 구조와 관계를 형식화하고 표현하는 프로세스로, 빅데이터가 표현하고자 하는 숨은 정보를 통계적 방법으로 도출하여 모델(model)로 표현하고 시각화하는 통계적 모델링과 유사하다고 할 수 있다.
예전에는 데이터를 처리하고 분석하는 통계분석가가 주목을 받는 시대였다면, 앞으로는 빅데이터를 수집·정리하고 통계적 방법으로 유의한 정보를 도출하여 이해하기 쉽게 시각화할 뿐만 아니라 더 나아가 데이터가 표현하고자 하는 숨은 정보를 찾아내는 데이터과학자(Data Scientist)가 주목받을 것이 분명하다. 데이터과학자는 통계 방법 중 하나인 데이터 모델링을 통해 데이터에서 숨은 패턴과 같은 정보, 지식을 넘어 지혜를 도출해낸다.
이에 필자는 통계학 지식과 엑셀, 그리고 통계프로그램인 R을 활용하여 데이터 모델링을 학습하고자 하는 독자들을 위해 본서를 집필하였다. 통계학은 빅데이터를 이해하고 분석하기 위한 필수적인 도구이며, 엑셀과 R은 빅데이터를 모델링하고 시각화하는 데 매우 효과적인 도구로 널리 사용되고 있다. 이 두 가지를 결합하여 활용하면 데이터 모델링에 대한 이해를 높이고, 실제로 데이터를 가공하고 분석하는 능력을 키울 수 있다.
본서의 전반부에서는 기초통계학 지식 및 빅데이터 분류와 속성에 대해 다루고, 후반부에서는 데이터 모델의 개념에 대해 공부한다. 더 세부적으로, 1장에서는 통계학의 3가지 주제와 빅데이터 정의, 종류, 요약, 그리고 데이터 모델(data model)과 모델링(modeling)의 차이를 소개한다. 2장에서는 빅데이터 시각화 방법과 오류 그리고 주의사항을 다루며, 3장에서는 데이터 모델링 결과를 통계적으로 해석하기 위한 표본분포, 추정, 가설검정 등과 같은 통계이론을 학습한다. 4장에서는 합리적인 정형 데이터 모델링 방법과 비정형 데이터의 대표적인 분석법인 텍스트마이닝(text mining)을 다루며, 5장에서는 비정형 데이터의 감성분석과 소셜 네트워크 분석을 공부한다. 6장에서는 다중선형회귀모형 및 변수 선택과 최적 모델링을 다루는 정형 데이터 최적 모델링을 학습하며, 끝으로 7장에서는 인공지능 평가와 데이터 분할, voting, bagging, boosting, stacking 등과 같은 앙상블 알고리즘과 같은 인공지능 빅데이터 모델링 R 프로그램을 다룬다.
좋은 책을 만들기 위해 최선을 다했지만 부족한 부분이 있을 수 있다. 이 점은 양해를 바라며 출간 후 나올 수 있는 수정사항 등은 자유아카데미 홈페이지(www.freeca.com) 자료실에 제공할 예정이니 참고하기를 바란다. 통계학과 더불어 데이터 모델링은 급변하는 21세기에 선도적인 역할을 담당할 이들에게 창의적 사고에 기초한 통계 리터러시(literacy) 배양에 필요한 선제적 전문지식이 될 것이다. 본서를 통해 이런 능력 배양에 조금이나마 도움이 되기를 기원한다.