컨텐츠상세보기

데이터 전처리 대전 - 데이터 분석을 위한 파이썬, SQL, R 실천 기술 (커버이미지)
알라딘
데이터 전처리 대전 - 데이터 분석을 위한 파이썬, SQL, R 실천 기술
  • 평점평점점평가없음
  • 저자모토하시 도모미쓰 (지은이), 윤준 (옮긴이) 
  • 출판사한빛미디어 
  • 출판일2019-11-01 
보유 1, 대출 0, 예약 0, 누적대출 0, 누적예약 0

책소개

실무 데이터 분석과 전처리 구현에 필요한
구체적인 기술을 제시하는 활용 가이드

데이터 분석의 품질에 큰 영향을 미치는 데이터 전처리는 매우 중요한 작업이다. 전처리 공정을 전체적으로 이해하려면 프로그래밍 언어에 관한 이해뿐만 아니라 통계학이나 머신러닝에 관한 기반 지식이 필요하지만 이를 포괄적으로 설명하는 책은 없었다.
이 책은 저자의 생생한 데이터 분석 실무 경험을 바탕으로 실용적인 전처리 기술을 설명한다. 프로그래밍 언어를 이용해 간단한 개발을 할 수 있는 사람이라면 무리 없이 이해할 수 있도록 쉽게 설명한다. 초급 데이터 과학자뿐만 아니라 데이터 분석 업무를 익히고 싶은 시스템 엔지니어에게도 강력히 추천한다.

데이터 분석에서 가장 먼저 실행하는 전처리 기술!
SQL과 R, 파이썬 예제로 효과적이고 실용적인 구현 방법 익히기

이 책은 데이터 분석에서도 가장 먼저 실행되는 전처리를 전문적으로 다룬다. SQL과 R, 파이썬이라는 각 언어를 활용해 문제를 풀어나가면서 각 언어의 특징과 장단점을 함께 알려준다. 하지만 여러 언어를 다룬다고 해서 모든 것을 얻을 수 있는 책은 아니다. 이 책은 특정 언어의 스킬을 가르쳐주기보다는 전처리란 무엇인가를 설명하는 데 더 초점을 맞춘다. 특히 다양한 예제를 여러 언어를 활용해 풀어보면서 어떤 식으로 문제에 접근해야 하는지 알려준다. 즉 세 가지 언어의 특징을 통해 각 전처리의 특성을 더욱 잘 이해할 수 있게 구성했다.
이 책의 내용은 프로그래밍을 하는 사람이면 누구나 쉽게 따라 할 수 있다. 프로그래밍을 잘 알지 못해도 예제들을 실행해보면서 전처리의 프로세스를 이해할 수 있을 것이다. 저자의 현장 경험을 바탕으로 구성한 예제들을 읽다 보면 그러한 경험과 노하우가 문제에 녹아들어 있음을 알 수 있다. 앞으로 전처리를 다뤄야 할 독자분이라면 언어의 선택부터 전처리를 다루는 팁까지 얻을 수 있는 좋은 자료가 될 것이다.

주요 내용
● 데이터 분석에서 전처리가 차지하는 역할과 중요성
● 추출, 집약, 결합, 분할, 생성, 전개 등 전처리 과정
● 파이썬, SQL, R을 이용한 구체적인 전처리 구현 방법
● 수치, 범주, 날짜 등 다양한 형식의 데이터 처리하기
● 실제 현장에서의 전처리 프로세스

저자소개

시스템 개발업체 연구원과 웹 계열 회사의 데이터 과학자를 거쳐 현재는 디지털 의료 스타트업의 CTO로 역임 중이다. 양자 어닐링 컴퓨터의 검증에 개인 사업자로 참여하고 있다. 제조업, 소매업, 금융업, 운수업, 레저 산업, 웹 등 다양한 업종의 데이터 분석을 경험했다. 취미로 마리오 AI를 개발한다.

목차

[1부 전처리 입문]



1장 전처리 개요

__1.1 데이터

__1.2 전처리의 역할

__1.3 전처리의 흐름

__1.4 세 가지 프로그래밍 언어

__1.5 패키지/라이브러리

__1.6 데이터셋

__1.7 데이터 읽기



[2부 데이터 구조 전처리]



2장 추출

__2.1 데이터 열을 지정한 추출

__2.2 조건에 따른 데이터 행 추출

__2.3 데이터 값을 고려하지 않는 샘플링

__2.4 집약 ID에 기반한 샘플링



3장 집약

__3.1 데이터와 종류의 개수 산출

__3.2 합곗값 계산

__3.3 최댓값, 최솟값, 대푯값 산출

__3.4 분포 계산

__3.5 최빈값 계산

__3.6 순위 계산



4장 결합

__4.1 마스터 테이블에서 정보 얻기

__4.2 조건에 따라 결합할 마스터 테이블 변경하기

__4.3 과거 데이터에서 정보 얻기

__4.4 상호 결합



5장 분할

__5.1 모델 검증을 위한 데이터 레코드 분할

__5.2 모델 검증을 위한 시간 데이터 분할



6장 생성

__6.1 언더샘플링으로 데이터 불균형 조정하기

__6.2 오버샘플링으로 데이터 불균형 조정하기



7장 전개

__7.1 가로 데이터로 변환

__7.2 희소 행렬로의 변환



[3부 데이터 내용 전처리]



8장 수치형

__8.1 수치형 데이터로 변환

__8.2 대수화를 이용한 비선형 변화

__8.3 범주화를 이용한 비선형 변화

__8.4 정규화

__8.5 예욋값 제거

__8.6 주성분 분석을 이용한 차원 압축

__8.7 수치의 보완



9장 범주형

__9.1 범주형으로 변환

__9.2 더미 변수화

__9.3 범줏값의 집약

__9.4 범줏값의 조합

__9.5 범주형의 수치화

__9.6 범주형의 보완



10장 일시형

__10.1 일시형과 날짜형으로 변환

__10.2 연, 월, 일, 시각, 분, 초, 요일로 변환

__10.3 일시의 차이로 변환

__10.4 일시형의 증감

__10.5 계절로 변환

__10.6 시간대로 변환

__10.7 평일과 휴일로 변환



11장 문자형

__11.1 형태소 분석을 이용한 분해

__11.2 단어의 집합 데이터로 변환

__11.3 TF-IDF로 단어의 중요도 조정



12장 위치 정보형

__12.1 한국 측지계를 세계 측지계로 변환

__12.2 두 지점 간 거리와 방향 계산



[4부 실천 전처리]



13장 연습 문제

__13.1 집계 분석 전처리

__13.2 추천 전처리

__13.3 예측 모델링 전처리



부록 A 예제 환경 구성하기

__A.1 SQL 환경 준비하기

__A.2 R 환경 준비하기

__A.3 파이썬 환경 준비하기

한줄 서평