jsoup-网页抓取时，如何判断一个页面是导航页面，还是内容页面

问题描述

网页抓取时，如何判断一个页面是导航页面，还是内容页面

在做网页抓取的时候，我想先判断这个网页是导航页面（目录页面），还是内容页面

例如 http://sky.news.sina.com.cn/ 这是一个导航页面

http://sky.news.sina.com.cn/2013-10-10/094444474.html 这是一个正文页面

可以通过url进行判断我知道的，能不能通过分析页面源代码进行判断啊，比如说正文字数，主要区域链接个数等等
谢谢大家，请给点思路

时间： 2024-11-01 13:12:03

jsoup-网页抓取时，如何判断一个页面是导航页面，还是内容页面的相关文章

网页抓取时遇到相对路径怎么办啊，高手快帮帮我

问题描述各位遇到个问题, 谁能帮我解决一下我举个例子现在要抓取 http://www.xxx.com/123/123/321/xxx.html 下的一篇文章,其中连图片也要一起抓所以我抓到这个页面后需要根据img 元素里的url再单独抓图片.问题来了,img给的url很多都是像../../图片.jpg 或者 ./img/图片.jpg 等格式的相对路径,整的我没办法正常抓取,有没有什么办法解决方案 URI base=new URI(baseURI);//基本网页URI URI abs=b

初学指南| 用Python进行网页抓取

引言从网页中提取信息的需求日益剧增,其重要性也越来越明显.每隔几周,我自己就想要到网页上提取一些信息.比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引.我们不仅需要找出新的课程,还要抓取对课程的评论,对它们进行总结后建立一些衡量指标.这是一个问题或产品,其功效更多地取决于网页抓取和信息提取(数据集)的技术,而非以往我们使用的数据汇总技术. 网页信息提取的方式从网页中提取信息有一些方法.使用API可能被认为是从网站提取信息的最佳方法.几乎所有的大型网站,像Twitter.

关于数据抓取时网页编码各不相同的问题

问题描述关于数据抓取时网页编码各不相同的问题最近在学习数据抓取的一些技能,抓取指定数据,网页编码都是不一样的, 有没有方法写个公用的类或者对象来处理,求代码解决方案 python 判断网页编码的方法: import urllib f = urllib.urlopen('http://outofmemory.cn/').info() print f.getparam('charset') 2 import chardet 你需要安装一下chardet第3方模块判断编码 data = urll

构建一个高性能的网页抓取器，互联网营销

互联网的发展,使人类提前进入了信息爆炸的年代,在浩瀚无边的信息海洋里,如何快速.准确找到对自己有用的信息,就成了一个很有价值的研究课题,于是,搜索引擎应运而生.现在,国内外大大小小的搜索引擎有很多,搜搜也是这搜索引擎大军中的一员悍将.笔者有幸参与了搜搜研发过程中的一些工作,在这里写一些自己的理解与看法,权当是抛砖引玉,希望能够得到业内前辈们的一些指点. 对于网页搜索引擎来说,它的基本处理流程,通常可以分为三个步骤:一是对海量互联网网页的抓取,也称下载:二是对已下载的网页进行预处理,包括抽取正

网络爬虫-Jsoup 如何抓取GOOGLE网页数据

问题描述 Jsoup 如何抓取GOOGLE网页数据网络爬虫新手,以前学过JAVA,所以想用JAVA来做一些数据抓取工作在网上找的 Jsoup的JAR,试了一下感觉比较容易上手,所以想抓取GOOGLE数据代码也是网上找的, 但是出现 timeOut,我觉得可能是GOOGLE被屏蔽的问题,我使用Ishadowsock翻墙平时,但是打开以后运货还是timeOut. 不知道各位大神能不能支支招,另外想问一下GOOGLE数据抓取有没有更好一些的开源工具,谢谢万分! Set result = new

html-怎么用Jquery实现从一个网页抓取指定内容

问题描述怎么用Jquery实现从一个网页抓取指定内容已知一个网页的网址,现在抓取该网页的指定内容,比如说标题,发布时间,浏览次数等.怎么做????? 解决方案 http://www.gbtags.com/technology/javautilities/20120720jsoupjquerysnatchpage/ 解决方案二: 看看jquery 里面的load 方法. 其实做好还是用服务端语言做. 解决方案三: 客户端搞不了,有跨域问题,这种一般用采集软件来做,如火车头解决方案四: 用Ht

玩玩小爬虫——抓取时的几个小细节

这一篇我们聊聊在页面抓取时应该注意到的几个问题. 一:网页更新我们知道,一般网页中的信息是不断翻新的,这也要求我们定期的去抓这些新信息,但是这个"定期"该怎么理解,也就是多长时间需要抓一次该页面,其实这个定期也就是页面缓存时间,在页面的缓存时间内我们再次抓取该网页是没有必要的,反而给人家服务器造成压力. 就比如说我要抓取博客园首页,首先清空页面缓存, 从Last-Modified到Expires,我们可以看到,博客园的缓存时间是2分钟,而且我还能看到当前的服务

再浅谈百度抓取时出现的200 0 64现象

只有经历过网站关键词搜索排名跌宕起伏的站长才能真正明白,等待不是一种方式,结果需要努力和勤劳来弥补.笔者经历了网站改版到降权,关键词一无所有到关键词排名起色的过程,这个过程让人难熬和艰辛,如果有一天每一位站长都经历过这样的历程,我想百度会比现在弱小很多. 笔者的站在近3个月前进行一次改版,改版的目的就是为了URL标准和简单,同时也做了网站网页布局的修改,从改版后开始网站关键词一无所有,等待我的只有坚持内容更新和外链发布,直至上周网站频道关键词和长尾关键词开始进入百名,从网站改版到目前有所成就的过

c#-C# 网页抓取保存为图片

问题描述 C# 网页抓取保存为图片给个网址,然后把整个网页以图片的形式保存到本地要求 :1. 要保存的是整个网页,从头到尾2.如果网页超出屏幕,请模拟下拉滚动条至网页底部,待网页所有元素加载完毕后,再保存解决方案这个需求对于那些所谓"瀑布流"方式加载的网页,典型的,新浪微博和google图片搜索结果,它下拉下来是无限长的,而你的内存不是无限大的,一下子就把你的程序搞死了. 解决方案二: c#获取整个网页截图解决方案三: 现在的问题是如何判断一个网站完全打开,包括所有的图片已经打

猜你喜欢

12个技巧帮你在他人论坛进行宣传

技巧怎样在别人论坛宣传网站的十二大绝招我们知道做广告有两个前提,一是产品有人需要,二是产品质量要好.宣传网站也不例外,如果你的网站是一些用免费资源进行制作的,或者是内容没有什么新意,最好别在这里浪费 ...

妙用Photoshop内置滤镜打造绚丽花朵

滤镜滤镜是 Photoshop 强大的工具之一,利用它可以做出千变万化的效果.本教程利用滤镜做出虹彩图案,大家跟我一起来学习吧:) 效果图: 最终效果预览 1.新建一个文件: 2.填充渐变: 3.执 ...

Windows 7中如何处理程序兼容性问题

程序安装或使用时遇见问题,这在电脑的使用中很常见,主流Win7电脑也不例外,虽然Win7很强大也很智能,但偶尔遇见了一个程序不兼容问题还是让人倍感头疼.今天就想和大家讨论一下Win7系统中使用程序 ...

怎样在Coreldraw中对段落文本排版

问:怎样在Coreldraw中对段落文本做好排版?有什么技巧吗? 答:如果文字比较少,推荐用美术文字:点文本输入工具直接在页面中打字. 如果文字较多用段落文本:点文字输入工具,在页面当中拉一个虚线框, ...

与动态执行的C#代码进行通讯

1.简介能够动态执行 C# 代码是一件很酷的功能,比如,我们可以在控制台中输入一行 C# 代码,然后程序自动编译并执行这一行代码,将结果显示给我们.这差不多就是一个最简单的 C# 代码解释器了. ...

理解和处理SQL Server数据库中的孤立用户

问题把数据库从一个服务器实例附加和恢复到另一个实例中是数据库管理员执行的常见的任务.附加或者恢复一个数据库之后,之前在数据库中创建和配置的登录名已经不能访问了.这个问题最常见的症状是应用程序会遇 ...

excel三栏斜线表头怎么制作

excel三栏斜线表头怎么制作步骤一:边框线的添加.边框线的添加别无选择,就使用单元格的边线即可.如下图所示. 步骤二:添加斜线. 1.Excel2003版:工具栏右键菜单(或视图 - 工具栏) ...

阿里云如何删除NAT网关

删除NAT网关描述删除NatGateway. 如果要删除的NAT Gateway上有带宽包尚未删除,则GW删除失败;需先删除带宽包; 请求参数名称类型是否必须描述 Action Strin ...

javascript计算星座属相示例代码

本文介绍了使用javascript计算星座和属相的示例,这个可以用在用户注册的时候显示出来,大家参考使用吧代码如下: <SCRIPT LANGUAGE="JavaScript&qu ...

酷盘是什么东西

酷盘是什么? 酷盘(Kanbox)是一款十分好用的在线存储软件,软件界面简洁,但功能却十分全面.2GB的默认存储空间,并且后续的空间升级条件也很容易达成. 酷盘有什么用?干什么用的? 使用酷盘可以 ...

ttp onnection- 多线程断点下载报异常Unexpected and of file from

问题描述多线程断点下载报异常Unexpected and of file from 这个是我的读取文件的代码 URL url=new URL(webAddr); //根据网络资源创建URL对象 ht ...

asp.net mvc 购物网站购物车

问题描述 asp.net mvc 购物网站购物车 public class Cart { public int CartID { get; set; } private List lineColle ...

【SQL 学习】UNION 的排序方式！

(感谢dingjun123版主为本文提供帮助) union怎么排序? 许多人肯定会说根据第一字段来排序,呵呵,这个答案能得50分!考虑到如果select的第一个字段是重复时,会怎样?看一个测试! ...

阿里云服务器与VPS和虚拟主机有什么区别？

今天和大家来看下云服务器和VPS已经虚拟主机的对比和区别,如果你也不知道该如何选择.希望看完这篇文章,能让大家选购时有一个更合适的取舍. 看正文之前,大家可以先领取一下阿里云-幸运券,这样如果需要购买 ...

有图有数据！微信自媒体运营的十条干货

中介交易 SEO诊断淘宝客云主机技术大厅到今天为止,"信海光微天下"这个公众账号已经发布超过200期,虽然是新媒体,但也要有一点对读者负责的精神,所以,今天就分享一下&qu ...

都是Javascript的作用域惹得祸

案件重现今天有位然之OA系统的定制开发用户咨询了个问题,他想在新加的功能模块的操作面板中,实现用户点击删除按钮时提示友好提醒,如下: 问题很简单,虽然他自己最终达到目的效果了,但不知道起初问题出在哪 ...

我的Android进阶之旅------&gt;自己写个Activity来调节Android系统背光亮度Brightness

今天终于算初步写好了一个调节系统背光亮度Brightness的代码,本来不看Android源代码以为可以直接调用某个Action来启动系统的那个调节Brightness的对话框 ...

1.使用XMLHttPRequest控件异步获取数据

知识点: ①根据浏览器的不同实例化XMLHttpRequest对象: ②发送一个异步请求的步骤: ③如何处理每次回调的函数: 完整代码如下: <%@ Page Language="C ...

为什么写入到文件中的会是一堆乱码

问题描述 publicclassTest15{/***@paramargs*/publicstaticvoidmain(String[]args){//TODOAuto-generatedmethod ...

android libmp3lame-libmp3lame编译出现：undefined reference to &amp;#39;hip_decode&amp;#39;

问题描述 libmp3lame编译出现:undefined reference to 'hip_decode' 这是出问题的地方,这三个方法在mpglib_interface.c文件中下面是Andr ...

Xtables-addons 1.37发布 iptables库

Xtables-addons是一个包,废弃旧补丁O-MATIC为Linux内核和iptables库.将修补内核源代码,扩展构建为模块,从而使延伸无需重新编译内核. Xtables-addons 1.3 ...

详解正则表达式之数字验证_正则表达式

这篇博文将介绍一些常用的数字验证方法,包括整数验证.国内电话号码验证.身份证号码验证.以及IP地址验证等等验证方法,如果大家对基本概念不够了解,可以先看看我之前写的博文. 第一部分:数值验证 1.验证 ...

Windows server 2003 服务器环境配置新手简明版_win服务器

一.系统约定篇环境软件下载后存放位置:X:\Server_Tools 环境软件安装位置:X:\Server_Core PHP安装位置:X:\Server_Core\PHP MySQL安装位置:X:\ ...

jquery实现的随机多彩tag标签随机颜色和字号大小效果_jquery

jquery随机多彩tag标签随机颜色和字号大小效果 js代码: 复制代码代码如下: <script type="text/javascript" src="jq ...

javascript 控制input只允许输入的各种指定内容_javascript技巧

1.只允许输入数字 <input name="username" type="text" onkeyup="value=this.value.r ...

百度钱包转账功能怎么用？百度钱包转账教程

1.在电脑中利用浏览器打开并登录百度钱包,如图所示 2.然后在登录之后我们点击"超级转账"按钮打开进入,如图所示 3.然后在此我们填写收款人的收款人的卡号.名字.转账金额信息,再 ...

印度大量投资太阳能已取得成效足以媲美煤炭

3月8日上午,据CNNMoney网站报道,印度对太阳能的大量投资已经远早于预期地见到了成效. 太阳能的价格在最近几个月已经下降到了足以媲美煤炭的水平,对于一个3亿人生活在没有电的环境下的国家来说,价格 ...

在Word中跳过首页计算页码

前几天帮朋友做简历,这份简历共有四页,第一页为封面,其余三页为正文,最后在计算页码时却出了一点小"麻烦",在页脚处插入Word"自动图文集"中的" ...

javascript 面向对象编程聊聊对象的事_js面向对象

先看一下JSON(javascript object notation)对象,JSON是一种脚本操作时常用的数据交换格式对象,相对于XML来说JSON是一种比较轻量级的格式,在一些intelligen ...

重庆携思科打造中西部最大IT制造基地

程维重庆市政府11日与美国思科公司签署战略合作协议,思科将牵头在重庆投建一个年产出达100亿元人民币的通信产业基地,思科也可能因此获得重庆建智能城市的巨额订单. 重庆再引IT巨头落户 9月11日17 ...

热搜