Spark机器学习

发布时间: 2015-10-19 阅读数: 676

编辑推荐

Apache Spark是一个分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有并行计算框架中,鲜有能兼顾速度、可扩展性、内存处理以及容错性,同时还能简化编程,提供灵活、表达力丰富的强大API的,Apache Spark就是这样一个难得的框架。
本书介绍了Spark的基础知识,从利用Spark API来载入和处理数据,到将数据作为多种机器学习模型的输入。此外还通过详细的例子和现实应用讲解了常见的机器学习模型,包括推荐系统、分类、回归、聚类和降维。另外还介绍了一些高阶内容,如大规模文本数据的处理,以及Spark Streaming下的在线机器学习和模型评估方法。
如果你是一名Scala、Java或Python开发者,对机器学习和数据分析感兴趣,并想借助Spark框架来实现常见机器学习技术的大规模应用,那么本书便是为你而写。有Spark的基础知识,但并不要求你有实践经验。
通过学习本书,你将能够:
用Scala、Java或Python语言编写你的一个Spark程序;
在你的本机和Amazon EC2上创建和配置Spark开发环境;
获取公开的机器学习数据集,以及使用Spark对数据进行载入、处理、清理和转换;
借助Spark机器学习库,利用协同过滤、分类、回归、聚类和降维等常见的机器学习模型来编写程序;
编写Spark函数来评估你的机器学习模型的性能;
了解大规模文本数据的处理方法,包括特征提取和将文本数据作为机器学习模型的输入;
探索在线学习方法,利用Spark Streaming来进行在线学习和模型评估。

内容推荐

《Spark机器学习》每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了Spark 的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据开始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。

作者简介

Nick Pentreath是Graphflow公司联合创始人。Graphflow是一家大数据和机器学习公司,专注于以用户为中心的推荐系统和客户服务智能化技术。Nick拥有金融市场、机器学习和软件开发背景,曾任职于高盛集团,之后去在线广告营销创业公司Cognitive Match Limited(伦敦)担任研究科学家,后又去非洲**的社交网络Mxit领导数据科学与分析团队。Nick是Apache Spark项目管理委员会成员之一。

分享到:
热点图书
利用Python进行数据分析

利用Python进行数据分析

2015年10月20日发布 1585次阅读
Spark快速大数据分析

Spark快速大数据分析

2015年10月16日发布 1287次阅读
统计学基础

统计学基础

2015年10月26日发布 1170次阅读
数据挖掘:实用案例分析

数据挖掘:实用案例分析

2015年10月19日发布 1050次阅读
R软件及其在金融定量分析中的应用

R软件及其在金融定量分析中的应用

2016年01月13日发布 1008次阅读
R语言实战

R语言实战

2015年10月16日发布 986次阅读
登录 注册