Spark视频王家林大神 第7课: Spark机器学习内幕剖析

Spark视频王家林大神 第7课: Spark机器学习内幕剖析

本节讲解Spark机器学习内幕,Spark机器学习的本质是什么,Spark机器学习的内部构成到底是什么?基于Spark 2.x版本,怎么学习机器学习?这是所有做机器学习的同学都非常关注的。Spark 2.x版本的发布,标志着以Spark为核心的大数据统一计算时代真正的到来。

Spark机器学习的本质是什么?机器学习是数据+算法(迭代),从老师的角度而言,Spark机器学习就是Spark平台之上的函数库,这是一个非常重要的观点。将Spark机器学习看作普通的函数,很多函数构成函数库,机器学习mllib库函数有自己的一套逻辑,以机器学习的方式,机器学习比较特殊,具有迭代性,或基于迭代进行改进等,函数有自己内部的逻辑。这些函数基于RDD/DataFrame/DataSet,以后将全面转向DataSet。

Spark机器学习数据来源,在Spark的最底层肯定是RDD封装的,这个和Spark具体是什么版本没有任何关系,版本的发展只不过提供了更多的更高层的API而已。例如DataFrame/DataSet,而之所以有DataFrame/DataSet等,一般情况下是为了使用统一的优化引擎。在统一的优化引擎基础上,只要优化引擎,引擎上面的所有的子框架都会受益。抽象程度越高,优化算法和空间就越大(因此越底层越高效的观点,显然是不完善的。)

Spark机器学习的数据来源主要基于RDD。看一下Spark机器学习的官网

段智华 CSDN认证博客专家 Spark AI 企业级AI技术
本人从事大数据人工智能开发和运维工作十余年,码龄5年,深入研究Spark源码,参与王家林大咖主编出版Spark+AI系列图书5本,清华大学出版社最新出版2本新书《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版、《企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密》,《企业级AI技术内幕》新书分为盘古人工智能框架开发专题篇、机器学习案例实战篇、分布式内存管理系统Alluxio解密篇。Spark新书第二版以数据智能为灵魂,包括内核解密篇,商业案例篇,性能调优篇和Spark+AI解密篇。从2015年开始撰写博文,累计原创1059篇,博客阅读量达155万次
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页
实付 19.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值