本书源自作者在斯坦福大学教授的“海量数据挖掘”(CS246: Mining Massive Datasets)课程,第1版上市以来受到读者广泛欢迎和认可。这个新版本在上一版基础上新增三章内容,分别涵盖社会网络图挖掘、降维和大规模机器学习,同时也更新了第1版的部分内容。
众所周知,移动互联网、社交媒体、电子商务和各种传感器的运用产生了超大数据集,挖掘这些数据可以提炼出有用的信息。本书以大数据环境下的数据挖掘和机器学习为重点,全面介绍了实践中行之有效的数据处理算法,是在校学生和相关从业人员的必备读物。主要内容包括:
分布式文件系统以及MapReduce工具;
相似性搜索;
数据流处理以及针对易丢失数据等特殊情况的专用处理算法;
搜索引擎技术,如谷歌的PageRank;
频繁项集挖掘;
大规模高维数据集的聚类算法;
Web应用中的关键问题——广告管理和推荐系统;
社会网络图挖掘;
降维处理,如SVD分解和CUR分解;
大规模机器学习。

《大数据-互联网大规模数据挖掘与分布式处理》电子书籍下载地址:

刘遄

您只需扫描右侧二维码或者手动添加微信好友:"liuchuan665",即可看到验证码了~而如果您想要获得更多原创文章、对交流学习Linux技术干货感兴趣的话,可以申请成为刘遄老师的好友,每天在朋友圈中分享资源哦→

该页面的验证码:

此账号由刘遄老师亲自运营,抵制微商和发广告的非技术人士,请仔细阅读后再添加!

本文原创地址:https://www.linuxprobe.com/dig-data-book.html编辑:尹慧慧,审核员:逄增宝