Jsoup解析遇到问题

问题描述

在解析URL地址时有时会遇到解析出来的doc对象的text内容在结尾是...是显示不全吧?解析部分的代码我是这么写的。doc=Jsoup.connect(url).userAgent("Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;WOW64;Trident/5.0").timeout(20000).get();

但是获取到的内容的doc.text()值就是一部分最后的结尾是...请高手指点。回帖即给分!

解决方案

解决方案二:
为什么呢,你得解析获取Elements然后text吧。
解决方案三:
看看真实的数据是不是也是...
解决方案四:
引用1楼rui888的回复:

为什么呢,你得解析获取Elements然后text吧。

比如说我想获得这个页面上一个div对象但是解析出来之后,内容里边竟然没有。但是我根据URL在浏览器里是可以看到的。我在debug时看到doc.text所获得的内容,由于脚本内容太多,后边的内容竟然是省略号……不知道有没有大神遇到过
解决方案五:
引用2楼fangmingshijie的回复:

看看真实的数据是不是也是...

真实的数据是有内容的。这个我非常的确定,只是解析之后,由于内容太多,后边的内容是省略号了,不知道是不是这个原因。我非常确定的是内容解析出来之后没有这个省略号
解决方案六:
textpublicElementtext(Stringtext)Setthetextofthebodyofthisdocument.Anyexistingnodeswithinthebodywillbecleared.Overrides:textinclassElementParameters:text-unencodedtextReturns:thisdocument

这个api是没有说大数据省略的,看看是否引用的document是否是jsoup的,是不是引用了jdk的
解决方案七:
会不会是那个url网页上处理过了多出来的就省略号代替了。
解决方案八:
引用5楼fangmingshijie的回复:

textpublicElementtext(Stringtext)Setthetextofthebodyofthisdocument.Anyexistingnodeswithinthebodywillbecleared.Overrides:textinclassElementParameters:text-unencodedtextReturns:thisdocument

这个api是没有说大数据省略的,看看是否引用的document是否是jsoup的,是不是引用了jdk的

我引用的是importorg.jsoup.nodes.Document;
解决方案:
引用6楼rui888的回复:

会不会是那个url网页上处理过了多出来的就省略号代替了。

这个不太可能吧?
解决方案:
能说下怎么解决的吗。。。楼主好人

时间: 2024-08-22 22:52:23

Jsoup解析遇到问题的相关文章

Android利用Jsoup解析html 开发网站客户端小记

这些天业余时间比较多,闲来无事,想起了以前看过开发任意网站客户端的一 篇文章,就是利用jsoup解析网站网页,通过标签获取想要的内容.好了废话不多 说,用到的工具为 jsoup-1.7.2.jar包,具体jsoup的相关文档,请去这边看 http://jsoup.org/,这里有全部Api可以查询. 这里解析的网站是一个食谱网站,首先解析的是大类栏目标签. 如果你使用过jquery那么 ,接下来的事情就小菜一碟了,我们按F12进入浏览 器的开发者模式,去分析当前html页面的结构,如下图: 每个

通过jsoup解析页面html获取优酷页面视频列表

  通过jsoup解析页面html获取优酷页面视频列表 作者: javaboy2012 Email:yanek@163.com qq:    1046011462     代码如下:   package com.yanek; import java.io.IOException; import java.util.HashMap; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Ele

jsoup解析html某段字符串获取不了,应该是转义问题,但不知道如何解决,求帮助

问题描述 jsoup解析html某段字符串获取不了,应该是转义问题,但不知道如何解决,求帮助 http://pan.baidu.com/wap/share/home?uk=3306425232&third=0 这是我用jsoup解析的一个url地址,解析其中一段class为该页面信息: 控制台输出如下 <div class="pages complete-pages" xmlns="http://www.w3.org/1999/xhtml"> &

outofmemory-Java程序中Jsoup解析大量html内存溢出,资源没有回收,内存一直增长

问题描述 Java程序中Jsoup解析大量html内存溢出,资源没有回收,内存一直增长 Java程序中Jsoup解析大量html内存溢出,资源没有回收,内存一直增长 [code="java"] 最近要改别人写的一个解析html入库的程序,原本没有抽取正文的代码,就自己找了一个放了进去,是根据Jsoup解析写的,运行之后发现Jsoup解析大量html内存溢出,资源没有回收,内存一直增长.设1G的内存也就解析了几十万的页面就崩了.查了半天之后也没找到定位到,具体是哪个参数的内存一直增加也没

jsoup解析网页时“www”变成“m”的问题

问题描述 jsoup解析网页时"www"变成"m"的问题 1C Document doc = Jsoup.connect(website).get();其中 website=""http://www.huxiu.com/photo"".这个网址可以打开.但是解析后报这样的错: org.jsoup.HttpStatusException: HTTP error fetching URL. Status=404 URL=http:

androidjsoup-Android jsoup解析html

问题描述 Android jsoup解析html 在java工程中可以解析并获得html全部源码,但是在Android中却只能解析到部分源码,选择器总是报空指针,这是怎么回事?求大神指点-- 解决方案 本来想直接看sdk中的doc文档来学习android的,结果发现里面的英文资料,学起来速度有点慢,遂买了本android的教程书回来学习,刚好看到一个书里面一个使用java.net.URL访问网页的例子,之前在做采集的时候,使用了html解析器jsoup来获取页面所有链接,顺便试下把jsoup放进

图片-Jsoup解析HTML android小虾米求助

问题描述 Jsoup解析HTML android小虾米求助 例如 下面这个网页 我要怎么才能把里面的内容全部解析出来呢? 因为才自学不久所有 用 Jsoup 解析起来感觉很困惑 麻烦各位大神帮个忙 : url = "http://app.cqbdyg.com/index.php?m=content&c=index&a=show&catid=10&id=402"; 解决方案 http://www.jb51.net/article/43485.htm 解决方

crawler4j抓取页面使用jsoup解析html时的解决方法_java

crawler4j对已有编码的页面抓取效果不错,用jsoup解析,很多会jquery的程序员都可以操作.但是,crawler4j对response没有指定编码的页面,解析成乱码,很让人烦恼.在找了苦闷之中,无意间发现一年代已久的博文,可以解决问题,修改 Page.load() 中的 contentData 编码即可,这让我心中顿时舒坦了很多,接下来的问题都引刃而解了. 复制代码 代码如下: public void load(HttpEntity entity) throws Exception

jsoup解析html时,若没有查找到相关标签,Element元素的返回值如何判断为空?

问题描述 jsoup解析html时,若没有查找到相关标签,Element元素的返回值如何判断为空? 1900119429(美)Cay S. Horstmann,Gary Cornell著TP312JA978-7-111-25611-311,852页CNY118.00机械工业出版社2008JAVA核心技术.卷Ⅱ,高级特性.Volume II,Advanced featuresJAVA语言1 10000023610-13-081933-6737p.RMB13.00Sun Microsystems P

用jsoup解析百度API接口获取音乐下载地址,java项目没问题但是Android项目不行

问题描述 用jsoup解析百度API接口获取音乐下载地址,java项目没问题但是Android项目不行 因为是新手,所以很多基础不牢固,但是看了很多教学和网上的实例,感觉解析起来没有那么费劲,于是尝试练习一下这个功能 然后加进自己的毕业设计中,结果提前给自己挖了坑.什么都不显示,请教怎么回事百思不得其解,还有怎么解决呢?大概思路 是怎么样的呢?跪谢!! package com.example.jsoup; import org.jsoup.Jsoup; import org.jsoup.node