本书源自作者在斯坦福大学教授的“海量数据挖掘”(CS246: Mining Massive Datasets)课程,第1版上市以来受到读者广泛欢迎和认可。这个新版本在上一版基础上新增三章内容,分别涵盖社会网络图挖掘、降维和大规模机器学习,同时也更新了第1版的部分内容。
众所周知,移动互联网、社交媒体、电子商务和各种传感器的运用产生了超大数据集,挖掘这些数据可以提炼出有用的信息。本书以大数据环境下的数据挖掘和机器学习为重点,全面介绍了实践中行之有效的数据处理算法,是在校学生和相关从业人员的必备读物。主要内容包括:
分布式文件系统以及MapReduce工具;
相似性搜索;
数据流处理以及针对易丢失数据等特殊情况的专用处理算法;
搜索引擎技术,如谷歌的PageRank;
频繁项集挖掘;
大规模高维数据集的聚类算法;
Web应用中的关键问题——广告管理和推荐系统;
社会网络图挖掘;
降维处理,如SVD分解和CUR分解;
大规模机器学习。


根据中华人民共和国国家版权局相关法规,本站不提供该PDF电子版书籍
您可以进入交流社群中继续寻找资料或购买正版书籍

Linux交流群

技术交流社群:https://www.linuxprobe.com/club

Linux书籍在线阅读:https://www.linuxprobe.com/chapter-00.html

本文原创地址:https://www.linuxprobe.com/dig-data-book.html编辑:刘遄,审核员:逄增宝