课程目录: 大数据分析挖掘-基于Hadoop/Mahout/MLlib的大数据培训
4401 人关注
(78637/99817)
课程大纲:

    大数据分析挖掘-基于Hadoop/Mahout/MLlib的大数据培训

 

 

 

第一讲大数据挖掘及其背景

1)数据挖掘定义

2)Hadoop相关技术

3)大数据挖掘知识点

第二讲 MapReduce/DAG计算模式

1)分布式文件系统DFS

2)MapReduce计算模型介绍

3)使用MR进行算法设计

4)DAG及其算法设计

第三讲 云挖掘工具Mahout/MLib

1)Hadoop中的Mahoutb介绍

2)Spark中的Mahout/MLib介绍

3)系统及其Mahout实现方法

4)信息聚类及其MLlib实现方法

5)分类技术在Mahout/MLib中的实现方法

第四讲 系统及其应用开发

1)一个系统的模型

2)基于内容的

3)协同过滤

4)基于Mahout的电影案例

第五讲 分类技术及其应用

1)分类的定义

2)分类主要算法

3)Mahout分类过程

4)评估指标以及评测

5)贝叶斯算法新闻分类实例

第六讲 聚类技术及其应用

1)聚类的定义

2)聚类的主要算法

3)K-Means、Canopy及其应用示例

4)Fuzzy K-Means、Dirichlet及其应用示例

5)基于MLlib的新闻聚类实例

第七讲 关联规则和相似项发现

1)购物篮模型

2)Apriori算法

3)抄袭文档发现

4)近邻搜索的应用

第八讲 流数据挖掘相关技术

1)流数据挖掘及分析

2)Storm和流数据处理模型

3)流处理中的数据抽样

4)流过滤和Bloom filter

第九讲 云环境下大数据挖掘应用

1)与Hadoop/Yarn集群应用的协作

2)与Docker等其它云工具配合

3)大数据挖掘行业应用展望

六、培训

1, 了解大数据处理技术的相关知识。

2,学习Hadoop/Yarn/Spark的核心数据分析技术

3,深入学习Mahout/MLlib挖掘工具在大数据中的使用。

4,掌握Storm流处理技术和Docker等技术与大数据挖掘结合的方法。