大数据:互联网大规模数据挖掘与分布式处理

发布时间: 2015-10-19 阅读数: 789

内容推荐

本书源自作者在斯坦福大学教授多年的“Web挖掘”课程材料,主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:
□ 分布式文件系统以及Map-Reduce工具;
□ 相似性搜索;
□ 数据流处理以及针对易丢失数据等特殊情况的专用处理算法;
□ 搜索引擎技术,如谷歌的PageRank;
□ 频繁项集挖掘;
□ 大规模高维数据集的聚类算法;
□ Web应用中的关键问题:广告管理和推荐系统。
本书配套网http://infolab.stanford.edu/~ullman/mmds.html上提供英文版初稿以及一些课件和项目作业。

作者简介

Anand Rajaraman 数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功:1996年创办Junglee公司,两年后该公司被亚马逊以2.5亿美元收购,Rajaraman被聘为亚马逊技术总监,推动亚马逊从一个零售商转型为零售平台;2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司2011年被沃尔玛集团收购。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。博客地址http://anand.typepad.com/datawocky/。
Jeffrey David Ullman 美国国家工程院院士,计算机科学家,斯坦福大学教授。Ullman早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退

分享到:
热点图书
利用Python进行数据分析

利用Python进行数据分析

2015年10月20日发布 1585次阅读
Spark快速大数据分析

Spark快速大数据分析

2015年10月16日发布 1287次阅读
统计学基础

统计学基础

2015年10月26日发布 1170次阅读
数据挖掘:实用案例分析

数据挖掘:实用案例分析

2015年10月19日发布 1050次阅读
R软件及其在金融定量分析中的应用

R软件及其在金融定量分析中的应用

2016年01月13日发布 1008次阅读
R语言实战

R语言实战

2015年10月16日发布 986次阅读
登录 注册