内容简介:
《数据科学实战》脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义,它界定了数据科学的研究范畴,是一本注重人文精神,多角度、全方位、深入介绍数据科学的实用指南,堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题,内容包括:数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外,本书还将带领读者展望数据科学未来的发展。 本书集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速建立自己的数据分析环境。无论你是否已经习惯于使用Python或R语言,都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。 《统计思维:程序员数学之概率统计(第 2版)》是一本以全新视角讲解概率统计的入门图书。抛开经典的数学分析,Downey手把手教你用编程理解统计学。 具体说来,《统计思维:程序员数学之概率统计(第 2版)》通过一个案例研究,介绍探索性数据分析的全过程:从收集数据、生成统计信息,到发现模式、验证假设。同时研究分布、概率规则、可视化和其他多种工具及概念。此外,第 2版新增了回归、时间序列分析、生存分析和分析方法等章节。 本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。 《Python数据科学手册》是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境;第 2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的/列式数据;第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;第5章以Scikit-Learn为主,这个程序库为重要的机器学习算法提供了高效整洁的Python版实现。 《Python数据科学手册》适合有编程背景,并打算将开源Python工具用作分析、操作、可视化以及学习数据的数据科学研究人员。 本书解释了数据科学中至关重要的统计学概念,介绍如何将各种统计方法应用于数据科学。作者以易于理解、浏览和参考的方式,引出统计学中与数据科学相关的关键概念;解释各统计学概念在数据科学中的重要性及有用程度,并给出原因。 本书介绍了使用Python进行数据分析和高效的机器学习,首先从一节Python速成课开始,然后回顾统计学和概率论的基础知识,接着深入讨论与数据挖掘和机器学习相关的60多个主题,包括贝叶斯定理、聚类、决策树、回归分析、实验设计等。 本书基于Python语言环境,从零开始讲解数据科学工作,讲述数据科学工作所需的技能与诀窍,并带领读者熟悉数据科学的核心知识:数学与统计学。作者借助大量具有现实意义的实例详细展示了什么是数据科学,介绍了从事数据科学工作需要用到的库,如NumPy、scikit-learn、pandas等,还在每章末尾推荐了很多学习资源,帮助你进一步巩固本书所学。新版基于Python 3.6,重写了所有示例和代码,并根据数据科学近几年的发展,新增了关于深度学习、统计学和自然语言处理等主题,让图书内容与时俱进。