斧不止三板

2019年4月25日

python 使用selenium模块实现自动搜索百度百科词条(模拟人工搜索)

摘要: 目标:模拟人工搜索百度百科词条,爬取相关信息,自动删除上一个关键词,输入新关键词,继续搜索,直到循环结束。 代码: 运行结果(部分): 阅读全文

posted @ 2019-04-25 19:49 斧不止三板 阅读(1232) 评论(0) 推荐(0) 编辑

python 使用selenium模块爬取同一个url下不同页的内容(浏览器模拟人工翻页)

摘要: 页面翻页,下一页可能是一个新的url 也有可能是用js进行页面跳转,url不变,解决方法是实现浏览器模拟人工翻页 目标:爬取同一个url下不同页的数据(上述第二种情况) url:http://www.gx211.com/collegemanage/search.aspx?id=1&xxcity=1 阅读全文

posted @ 2019-04-25 19:28 斧不止三板 阅读(6100) 评论(0) 推荐(0) 编辑

python 提取字符串中的指定字符 正则表达式

摘要: 例1: 字符串: '湖南省长沙市岳麓区麓山南路麓山门' 提取:湖南,长沙 在不用正则表达式的情况下: 输出结果: 例二: 从一段文字中提取指定两段字符中间的字符 字符串 = ‘’师资力量学校现有教职工近4000余人,其中专任教师1800余人,教授、副教授1100余人,中国科学院院士3名,中国工程院院 阅读全文

posted @ 2019-04-25 18:33 斧不止三板 阅读(60803) 评论(3) 推荐(0) 编辑

python简单爬虫 用beautifulsoup爬取百度百科词条

摘要: 目标:爬取“湖南大学”百科词条并处理数据 需要获取的数据: 源代码: 库:由于百度有反爬机制,a56爆大奖在线娱乐使用urllib.request库获取网页;BeautifulSoup 代码: 运行结果: 阅读全文

posted @ 2019-04-25 17:30 斧不止三板 阅读(1699) 评论(0) 推荐(0) 编辑

python简单爬虫 使用pandas解析表格,不规则表格

摘要: url = http://www.hnu.edu.cn/xyxk/xkzy/zylb.htm 部分表格如图: 部分html代码: 用pandas解析表格,代码如下: 运行结果如下(部分): 非常简洁高效! 阅读全文

posted @ 2019-04-25 16:11 斧不止三板 阅读(3895) 评论(0) 推荐(0) 编辑

python简单爬虫 用lxml解析页面中的表格

摘要: 目标:爬取湖南大学2018年在各省的录取分数线,存储在txt文件中 部分表格如图: 部分html代码: 代码: 注:原本数据字典是这样写的: 输出结果有很多‘\xa0’,其实就是空格,源网页中就字段里就存在很多空格: plus:解析表格有更好的方法,比如pandas,一步到位!非常方便。 详情请看a56爆大奖在线娱乐 阅读全文

posted @ 2019-04-25 15:51 斧不止三板 阅读(7478) 评论(0) 推荐(0) 编辑

python简单爬虫 用lxml库解析数据

摘要: 目标:爬取湖南大学2018年本科招生章程 url:http://admi.hnu.edu.cn/info/1026/2993.htm 页面部分图片: 使用工具: Python3.7 火狐浏览器 PyCharm 步骤: 1.打开浏览器的开发者工具查看页面元素 2.html代码如下: 3.打开PyCha 阅读全文

posted @ 2019-04-25 15:13 斧不止三板 阅读(934) 评论(0) 推荐(0) 编辑

导航