摘要: crawler4j 学习(二) 实现控制器类以制定抓取的种子(seed)、中间数据存储的文件夹、并发线程的数目: 配置介绍 控制器类必须传一个类型为CrawlConfig的参数,用于配置crawler4j。下面描述了一些关于配置的细节。 抓取深度 默认情况下没有抓取深度的限制。可以通过配置来限制深度 阅读全文
posted @ 2016-12-19 17:02 悟知清风 阅读(1400) 评论(0) 推荐(0) 编辑
摘要: WebCrawler WebCrawler is a metasearch engine that blends the top search results from Google Search and Yahoo! Search. WebCrawler also provides users t 阅读全文
posted @ 2016-12-19 14:38 悟知清风 阅读(3315) 评论(0) 推荐(1) 编辑
摘要: crawler4j 学习(一) crawler4j是一个轻量级多线程网络爬虫,开发者可以调用相应的接口在短时间内创建一个多线程网络爬虫。 前期准备 使用maven 为了使用最近版本的crawler4j,请将下面的片段添加到你的pom.xml文件中。 不没有maven项目 crawler4j JARs 阅读全文
posted @ 2016-12-19 11:39 悟知清风 阅读(3472) 评论(0) 推荐(0) 编辑