摘要: 有时候读取同一个url,服务器可能会返回不同的response,并不是爬虫程序代码的问题,而是服务器的问题,初次试验request时,最好把responsea56爆大奖在线娱乐保存在一个txt文件当中,以便后续的比对。得到responsea56爆大奖在线娱乐之后就可以利用正则表达式或通过查找字符串来获取信息了。 只做get请求时,requests.get(url)和urllib.open(url).read()效果是相同的。 要熟练使用requests库或urllib2库,做get,post请求数据,设置参数,获取head及body。(待续) 阅读全文
posted @ 2016-03-07 19:39 morein2008 阅读(177) 评论(0) 推荐(0) 编辑
摘要: Java字符串的split方法可以分割字符串,但和其他语言不太一样,split方法的参数不是单个字符,而是正则表达式,如果输入了竖线(|)这样的字符作为分割字符串,会出现意想不到的结果, 如, String str="中国|广东|深圳"; String[]location=str.split("|" 阅读全文
posted @ 2016-03-07 16:44 morein2008 阅读(208) 评论(0) 推荐(0) 编辑
摘要: String emailRegex = "^\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*$"; Pattern pat = Pattern.compile(emailRegex); Boolean matchFlag = pat.matcher 阅读全文
posted @ 2016-03-03 20:10 morein2008 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 1 package javatest; 2 3 import java.io.File; 4 import java.util.ArrayList; 5 import java.util.regex.Pattern; 6 7 class FileUtils 8 { 9 public static v 阅读全文
posted @ 2016-03-03 19:53 morein2008 阅读(647) 评论(0) 推荐(0) 编辑
摘要: 测试表geoinfo,整个表超过1100万行,表结构:CREATE TABLE `geoinfo` (`objectid` int(11) NOT NULL AUTO_INCREMENT ,`latitude` double NOT NULL ,`longitude` double NOT N... 阅读全文
posted @ 2016-01-27 12:19 morein2008 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 对于大数据量的表格,尤其是百万行以上的数据表,一定要对其建立索引,否则查询速度极慢。(参考后面的测试结果)建立索引时需注意:MySQL的索引有两种:单列索引(即在某一列上建索引)、多列组合索引(即在多个列上建立同一个索引),不像SQL Server分聚集索引,非聚集索引。如何建立单列索引:格式:CR... 阅读全文
posted @ 2016-01-26 19:40 morein2008 阅读(1451) 评论(0) 推荐(0) 编辑
摘要: Python获取指定路径下的子目录和文件有两种方法: os.listdir(dir)和os.walk(dir),前者列出dir目录下的所有直接子目录和文件的名称(均不包含完整路径),如 >>> os.listdir(r'E:')['$RECYCLE.BIN', 'Download', 'test.t 阅读全文
posted @ 2016-01-25 13:19 morein2008 阅读(416) 评论(0) 推荐(0) 编辑
摘要: Python的字符串处理(包括整数等转换)、日期处理(加减、格式化为字符串、时间差)、文件读写、迭代器、类静态、成员方法构造器、多态、Type、异常处理、正则表达式Java同样。轨迹数据的分析:分时段(找出高峰期)、高峰期即各个时段哪里出租车最多,有多少?载客时一般去哪里,载客率、何时客人最多,何时... 阅读全文
posted @ 2016-01-22 21:03 morein2008 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 本例用Python操纵MySQL,从指定文件读取数据,并对数据进行处理,处理之后批量插入MySQL。贴上代码:# -*- coding: gbk -*-import reimport MySQLdbimport timedef select(sqlselect): try: co... 阅读全文
posted @ 2016-01-22 20:47 morein2008 阅读(1471) 评论(0) 推荐(0) 编辑
摘要: 唠叨几句: 近期在做数据分析,需要对数据做可视化处理,也就是画图,一般是用Matlib来做,但Matlib安装文件太大,不太想直接用它,据说其代码运行效率也很低,在网上看到可以先用Java做数据处理,然后调用Matlib来画图,另外,还可以使用Matplotlib,它是用Python写的类似Matl 阅读全文
posted @ 2016-01-22 12:04 morein2008 阅读(11091) 评论(0) 推荐(0) 编辑