jsoup (网页获取与解析)

1.获取

<dependency>
	<groupId>org.jsoup</groupId>		<artifactId>jsoup</artifactId>
	<version>1.6.3</version>
</dependency>

2.常用类

org.jsoup.nodes.Document

一个Html文档。类的定义为：public class Document extends Element{}

Connection org.jsoup.Jsoup.connect(String url)
指定URL，为下一步拿到HTML网页做准备。

Document org.jsoup.Connection.get() throws IOException
发送get请求，得到Document。

两个示例

Document doc = Jsoup.connect("http://example.com").userAgent("Mozilla").data("name", "jsoup").get();
Document doc = Jsoup.connect("http://example.com").cookie("auth", "token").post();

String org.jsoup.nodes.Element.text()
获取此元素与它所有子元素的文本内容的组合。如给定的html为<p>Hello <b>there</b> now!</p>, p.text()
，那么返回的是"Hello there now!"

Document org.jsoup.Jsoup.parse(String html)
将Html内容解析为一个文档。

Document org.jsoup.Jsoup.parse(File in, String charsetName, String baseUri)

从本地html文件中解析网页，得到document。

Elements org.jsoup.nodes.Element.select(String cssQuery)
寻找与指定css选择器匹配的元素。

Element org.jsoup.select.Elements.get(int index)

从elements中拿element，下标从0起。

Element org.jsoup.nodes.Element.child(int index)

返回该节点的第i个孩子，下标从0起。

3.Jsoup与浏览器

需要注意的是，我们平时上网用的浏览器，除了根据用户输入的url完成通信，还要解析执行javascript代码。
浏览器在发送http请求时，会在头部里面加入很多信息，比如Cookie、userAgent等。所以网站可以根据这些信息来确定这个请求是正常的用户请求还是爬虫机器请求，对于后者，为了减轻网站压力服务器通常不予回应，所以该系统在使用jsoup工具时会附上猎豹浏览器的真实userAgent，降低失败率。
浏览器在拿到网页以后，会执行java script代码，有一些代码会再次让浏览器发送请求，拿到一些内容来展现在网页上。因为jsoup不能执行java script代码，所以会出现它拿到的内容少于真实内容的情形。

时间： 2025-01-30 10:03:39

jsoup (网页获取与解析)

1.获取

2.常用类

3.Jsoup与浏览器

jsoup (网页获取与解析)的相关文章

技术-用jsoup抓取网页获取网页源码的时候，得到的源码和在网站上面点击右键查看源码不相同，怎么解决

使用Python从有道词典网页获取单词翻译_python

遍历元素-MFC 遍历网页获取指定CLASS内容里面的值

接口-安卓开发从网页获取出现问题

[UWP]涨姿势UWP源码——RSS feed的获取和解析

代码-java jsoup怎么获取最后一个html里的a标签

微信用户信息-微信网页获取用户信息

微信公众平台开发(106) 网页获取用户地理位置

bmob-求大神帮助，使用Bmob服务器，获取数据解析数据？？？我还使用异步加载