课程目录:Python爬虫及文本分析学术应用培训
4401 人关注
(78637/99817)
课程大纲:

          Python爬虫及文本分析学术应用培训

 

 

 

 

Python爬虫及文本分析学术应用
爬虫与文本分析概述
结构化数据/文本数据的获取方法概述

高效的编程语言实现结构化数据处理与文本分析的价值,文本分析简介

python编程基础
标准数据类型

控制流

自定义函数

os文件处理模块

python重要数据科学计算库
Numpy

Pandas

Matplotlib

Pyecherts

wordcloud

爬虫基础
网络爬虫简介

爬虫的基本原理

HTML 简介

数据存储

网页抓取
使用Urllib网页抓取

requests实战

BeautifulSoup4
BeautifulSoup 简介

BeautifulSoup 的安装

BS 对象的种类

遍历文档树

搜索文档树

Xpath
什么是Xpath

Xpath开发工具

Xpath常用规则

动态渲染页面抓取
Selenium 的安装

基本使用

声明浏览器对象

访问页面

定位元素

节点交互

动作链

执行 JavaScript

获取节点信息

延时等待

前进后退

Cookies

选项卡管理

异常处理

爬虫实战
网站的爬取

电商评价文本爬取

可供读取数据类型介绍
excel、pdf、txt、html、mysql数据库文件介绍

数据的存储
将数据存储到excel表

将数据存储到txt文本

将数据存储到csv

数据的读取
python批量读取多个多子表excel

python读取txt文件

python读取csv

正则表达式
什么是正则表达式

正则表达式匹配规则

re模块的使用

文本处理常用字符串方法精讲
字符串的不变性

排序行

段落格式化

二进制转化为ASCII

重复字词过滤

提取邮件地址

提取URL地址

大写转换

符号化

删除停用词

同义词与反义词处理

文本翻译

单词替换

拼写检查

WordNet接口

语料访问

标记单词

块和裂口

块分类

文本分类

双字母组

文字改写

文字换行

频率分布

文字摘要

词干算法

约束搜索

numpy数值计算要点串讲

Pandas数据处理串讲

python统计图表展示

重要的库
jieba库简介

关键词提取
关键词任务概述

TF-IDF算法原理

相似文章推荐原理介绍

实例:红楼梦文本分析的实现

文件与词库的读取

完成分词与词云图的绘制

文本分类
新闻素材介绍

新闻内容的关键词提取

词向量转化与ngram模型

朴素贝叶斯算法完成新闻分类

文本聚类
语料的加载,文本特征的提取,利用聚类算法对文本进行聚类

主题模型,情感分析