java爬虫-请求一个url,用java抓取所有网页链接以及内容。

问题描述

请求一个url,用java抓取所有网页链接以及内容。

比如用这个当实例:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml。(新手,望多多关照)

解决方案

通过java.net.URL类抓取某个网页的内容
java-抓取指定URL网页的内容

解决方案二:

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml这个网址下面有好几个子链接网页,有好几页,要求全部抓到。。

解决方案三:

简单的页面,可以考虑抓取内容后按照xml进行分析!

解决方案四:

参考:http://blog.csdn.net/scythe666/article/details/47337823

解决方案五:

看你具体想要什么信息了。

时间: 2024-10-02 15:59:02

java爬虫-请求一个url,用java抓取所有网页链接以及内容。的相关文章

抓取整个网页保存为图片的实用工具 Web2Pic Pro_常用工具

在上网过程中我们经常会抓取保存一些网页内容为图像格式,通常会利用一些截图软件来完成这一切,但是有些时候会遇到抓取的画面过长.超过一屏或我们本身就要抓取整个WEB页面的特殊情况,虽然HyperSnap有抓取滚动窗口的功能,但并不是所有页面都能这样捕捉,有时自动滚动也会失败:而且当开启自动滚动功能时,抓取滚动窗口和抓取当前窗口所使用的热键是一样的(Ctrl+Alt+W),在使用过程中并不十分方便.      Web2Pic是一款将整个web页面作为图像文件保存下来的工具.你只需在它的地址栏输入一个网

java 打印-java如何打印一个URL中的内容

问题描述 java如何打印一个URL中的内容 求教如何用java的api,打印一个动态网页,比如报表? 注意是非客户端打印,不用js 解决方案 内嵌一个浏览器引擎. 解决方案二: HttpURLConnection.getResponseMessage拿到string再用htmlparser解析http://htmlparser.sourceforge.net

java抓取https网页问题

问题描述 java抓取https网页问题 public static void getDocument() throws Exception{ Map<String,String> headMap=new HashMap<String,String>(); headMap.put("Accept","text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8&qu

C#HttpWebRequest 模拟请求一个URL和在网站上直接输入这个URL返回的页面不一样

问题描述 C#HttpWebRequest 模拟请求一个URL和在网站上直接输入这个URL返回的页面不一样 以上都是同一个URL请求返回的页面.为什么会出现这种情况,实在没有C币了求好心人帮助. myRequest = (HttpWebRequest)WebRequest.Create(requestUrlString); myRequest.Method = ""GET""; myRequest.UserAgent = ""Mozilla/5.

Python实现抓取页面上链接的简单爬虫分享_python

除了C/C++以外,我也接触过不少流行的语言,PHP.java.javascript.python,其中python可以说是操作起来最方便,缺点最少的语言了. 前几天想写爬虫,后来跟朋友商量了一下,决定过几天再一起写.爬虫里重要的一部分是抓取页面中的链接,我在这里简单的实现一下. 首先我们需要用到一个开源的模块,requests.这不是python自带的模块,需要从网上下载.解压与安装: 复制代码 代码如下: $ curl -OL https://github.com/kennethreitz/

网络爬虫-Jsoup 如何抓取GOOGLE网页数据

问题描述 Jsoup 如何抓取GOOGLE网页数据 网络爬虫新手,以前学过JAVA,所以想用JAVA来做一些数据抓取工作 在网上找的 Jsoup的JAR,试了一下感觉比较容易上手,所以想抓取GOOGLE数据 代码也是网上找的, 但是出现 timeOut,我觉得可能是GOOGLE被屏蔽的问题,我使用Ishadowsock翻墙平时,但是打开以后运货还是timeOut. 不知道各位大神能不能支支招,另外想问一下GOOGLE数据抓取有没有更好一些的开源工具,谢谢万分! Set result = new

百度抓取纯文本链接 Lee说SEO外链建设规则

由于用户不能通过直接点击方式进入纯文本url地址所指向的页面,无法直接实现反向链接定义中"指向目标文档(网页)"的反向链接作用,所以一直以来SEOER们对纯文本url地址的SEO作用普遍不看好. 但无可否认的是,这样大量的纯文本url地址有效增加了特定网页的曝光率,也肯定有用户通过复制粘贴方式进入特定网页--只要我们的内容对他有帮助.从这个意义上来说,纯文本url地址也的确间接实现了"指向目标文档(网页)"的反向链接作用. 百度与其他搜索引擎能够准确识别纯文本url

分享PHP源码批量抓取远程网页图片并保存到本地的实现方法_php实例

做为一个仿站工作者,当遇到网站有版权时甚至加密的时候,WEBZIP也熄火,怎么扣取网页上的图片和背景图片呢.有时候,可能会想到用火狐,这款浏览器好像一个强大的BUG,文章有版权,屏蔽右键,火狐丝毫也不会被影响. 但是作为一个热爱php的开发者来说,更多的是喜欢自己动手.所以,我就写出了下面的一个源码,php远程抓取图片小程序.可以读取css文件并抓取css代码中的背景图片,下面这段代码也是针对抓取css中图片而编写的. <?php header("Content-Type: text/ht

Python3分析sitemap.xml抓取导出全站链接

最近网站从HTTPS转为HTTP,更换了网址,旧网址做了301重定向,折腾有点大,于是在百度站长平台提交网址,不管是主动推送还是手动提交,前提都是要整理网站的链接,手动添加太麻烦,效率低,于是就想写个脚本直接抓取全站链接并导出,本文就和大家一起分享如何使用python3实现抓取链接导出. 首先网站要有网站地图sitemap.xml文件地址,其次我这里用的是python3版本,如果你的环境是python2,需要对代码进行调整,因为python2和python3很多地方差别还是挺大的. 下面是pyt