大数据基础与应用培训
01
初识大数据
了解大数据的定义、应用场景、分析流程和工作岗位需求
1.1 大数据定义
1.2 大数据应用场景
1.3 大数据分析流程
1.4 如何参与大数据分析
02
大数据应用纵览
展示大数据在不同行业的应用进展和趋势。包括医疗大数据、旅游大数据,以及华为公司的两个案例。
2.1 大数据应用纵览
2.2 智能医疗大数据
2.3 旅游大数据案例
2.4 金融科技与大数据风控
2.5 政务最多跑一次
03
Python大数据基础(一)
介绍Python的基本数据类型和数据结构,Numpy和Pandas的使用方法,以及本课程所使用的在线实践平台。
3.1 内置数据类型
3.2 扩展数据类型
3.3 内置数据结构
3.4 Ndarray介绍
3.5 Series介绍
3.6 DataFrame介绍
3.7 在线实验平台介绍
3.8 数据类型和结构在线实验
04
Python大数据基础(二)
介绍使用Python进行数据读取、数据转换、数据交换和数据展示等相关内容。
4.1 文件读写
4.2 文件和文件夹处理
4.3 数据库存取
4.4 CSV和Excel数据交换
4.5 JSON和XML数据交换
4.6 Web数据交换
4.7 用pandas加工数据
4.8 用Matplotlib展示数据
4.9 数据加工和展示在线实验
05
数据分析方法(一)
学习并掌握统计数据分析,主要包括数据的中心趋势度量、 数据的离散程度度量、数据分布的度量和图形化分析方法。
5.1 数据分析方法概述
5.2 统计数据分析方法
5.3 数据的中心趋势度量
5.4 数据的离散程度度量
5.5 数据分布的度量
5.6 图形化分析方法
06
数据分析方法(二)
学习并掌握基于机器学习的数据分析方法,主要包括机器学习的典型任务,常见的有监督学习和无监督学习算法。
6.1 机器学习简介
6.2 机器学习的典型任务
6.3 决策树算法
6.4 K-近邻分类算法(KNN算法)
6.5 K-均值聚类算法(K-means算法)
6.6 Apriori关联规则算法
6.7 在线实验
07
开源平台和工具(一)
介绍数据获取、清洗与存储等相关的开源平台和工具
7.1 数据采集与清洗概述
7.2 日志数据采集Flume简介
7.3 数据分发中间件Kafka简介
7.4 HDFS介绍及使用方法
7.5 HBase介绍及使用方法
7.6 Hive介绍及使用方法
7.7 NoSQL数据库技术
08
开源平台和工具(二)
介绍批处理、流式数据处理与分析以及资源管理与调度的开源平台和工具
8.1 批处理:MapReduce
8.2 批处理:Spark
8.3 PageRank举例
8.4 流处理:Storm
8.5 流处理:Spark Streaming
8.6 资源管理与调度概述
8.7 Zookeeper介绍及使用方法
8.8 在线实验
09
数据可视化
介绍数据可视化的基本方法和技术。
9.1 数据可视化简介
9.2 高维数据可视化
9.3 网络和层次化数据可视化
9.4 时空数据可视化
9.5 文本数据可视化
9.6 可视化在线实验
10
综合实践
以旅游大数据为例展示大数据分析的流程和方法。
10.1 旅游大数据在线实验