内容简介:
近年来,许多大学纷纷开设了数据科学与大数据技术专业,数据企业也高度重视数据科学家的培养训练。培养数据科学家需要师资条件、数据条件、计算条件等三个基础条件。本书关注数据条件的建设。
本书共分九章。第1章介绍了相似点集挖掘的基本原理和基本类型,包括聚类分析、特异群组分析和异常分析等;第2章是数据集产品的内容说明和使用手册;第3章至第6章分别介绍了四种球状多簇数据集、双月数据集、海量噪声数据集、三叶结数据集等四个抽象的数据集及其使用方法;第7章至第9章分别介绍了证券投资交互数据集、日志序列数据集、社交网络数据集等三个有实际应用背景的模拟数据集及其使用方法。
本书的读者对象主要是数据科学与大数据技术相关专业的老师和学生、企事业单位大数据相关部门的员工,本书介绍的数据集产品主要用于相似点集挖掘算法的设计实验、算法实验和算法效果评估。