2019 年 4月 25 日随笔档案 - 斧不止三板 - 博客园

python 使用selenium模块实现自动搜索百度百科词条（模拟人工搜索）

摘要：目标：模拟人工搜索百度百科词条，爬取相关信息，自动删除上一个关键词，输入新关键词，继续搜索，直到循环结束。代码：运行结果（部分）：阅读全文

posted @ 2019-04-25 19:49 斧不止三板阅读(1232) 评论(0) 推荐(0) 编辑

python 使用selenium模块爬取同一个url下不同页的内容（浏览器模拟人工翻页）

摘要：页面翻页，下一页可能是一个新的url 也有可能是用js进行页面跳转，url不变，解决方法是实现浏览器模拟人工翻页目标：爬取同一个url下不同页的数据（上述第二种情况） url:http://www.gx211.com/collegemanage/search.aspx?id=1&xxcity=1 阅读全文

posted @ 2019-04-25 19:28 斧不止三板阅读(6100) 评论(0) 推荐(0) 编辑

python 提取字符串中的指定字符正则表达式

摘要：例1：字符串： '湖南省长沙市岳麓区麓山南路麓山门' 提取：湖南，长沙在不用正则表达式的情况下：输出结果：例二：从一段文字中提取指定两段字符中间的字符字符串 = ‘’师资力量学校现有教职工近4000余人，其中专任教师1800余人，教授、副教授1100余人，中国科学院院士3名，中国工程院院阅读全文

posted @ 2019-04-25 18:33 斧不止三板阅读(60803) 评论(3) 推荐(0) 编辑

python简单爬虫用beautifulsoup爬取百度百科词条

摘要：目标：爬取“湖南大学”百科词条并处理数据需要获取的数据：源代码：库：由于百度有反爬机制，a56爆大奖在线娱乐使用urllib.request库获取网页；BeautifulSoup 代码：运行结果：阅读全文

posted @ 2019-04-25 17:30 斧不止三板阅读(1699) 评论(0) 推荐(0) 编辑

python简单爬虫使用pandas解析表格,不规则表格

摘要： url = http://www.hnu.edu.cn/xyxk/xkzy/zylb.htm 部分表格如图：部分html代码：用pandas解析表格，代码如下：运行结果如下（部分）：非常简洁高效！阅读全文

posted @ 2019-04-25 16:11 斧不止三板阅读(3895) 评论(0) 推荐(0) 编辑

python简单爬虫用lxml解析页面中的表格

摘要：目标：爬取湖南大学2018年在各省的录取分数线，存储在txt文件中部分表格如图：部分html代码：代码：注：原本数据字典是这样写的：输出结果有很多‘\xa0’，其实就是空格，源网页中就字段里就存在很多空格： plus:解析表格有更好的方法，比如pandas，一步到位！非常方便。详情请看a56爆大奖在线娱乐阅读全文

posted @ 2019-04-25 15:51 斧不止三板阅读(7478) 评论(0) 推荐(0) 编辑

python简单爬虫用lxml库解析数据

摘要：目标：爬取湖南大学2018年本科招生章程 url:http://admi.hnu.edu.cn/info/1026/2993.htm 页面部分图片：使用工具： Python3.7 火狐浏览器 PyCharm 步骤： 1.打开浏览器的开发者工具查看页面元素 2.html代码如下： 3.打开PyCha 阅读全文

posted @ 2019-04-25 15:13 斧不止三板阅读(934) 评论(0) 推荐(0) 编辑

斧不止三板