最近在写网络爬虫,发现一种情况没办法获取连接。请问大家有什么好办法

问题描述

html代码是这个样子的(举例)<ahref="javascript:test('test')">

这样的连接我应该怎么获取他的连接地址。我使用的是httpclient3和htmlparser

解决方案

解决方案二:
你的意思应该是说这个href标签中的连接不是直接链接而是一个函数是吧?我觉得既然他是一个函数,如果他有链接跳转的话,你可以直接用java写相同逻辑的函数不就可以得到最终的链接了。如果它没有链接跳转,你也没必要解析它的跳转链接了。
解决方案三:
引用1楼a5987995329的回复:

你的意思应该是说这个href标签中的连接不是直接链接而是一个函数是吧?我觉得既然他是一个函数,如果他有链接跳转的话,你可以直接用java写相同逻辑的函数不就可以得到最终的链接了。如果它没有链接跳转,你也没必要解析它的跳转链接了。

可是这样的话,如果我换个网站的话不就得重新写逻辑了吗?
解决方案四:
想要处理的话,你就得处理它的js文件!得不偿失,费力不讨好,不如忽略掉

时间: 2024-09-20 16:54:04

最近在写网络爬虫,发现一种情况没办法获取连接。请问大家有什么好办法的相关文章

java-&amp;amp;lt;自己动手写网络爬虫&amp;amp;gt;时遇到的报错

问题描述 <自己动手写网络爬虫>时遇到的报错 package com.guet.crawlerbyself; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.h

关于java网络爬虫遇到重定向的情况

问题描述 关于java网络爬虫遇到重定向的情况 http://weixin.sogou.com/weixin?query=AECOM&fr=sgsearch&type=2&ie=utf8&w=01019900&sut=3992&sst0=1442279218592&lkt=4%2C1442279216085%2C1442279217157 这十个列表页面,我想知道每条新闻的真实链接,因为重定向过,不知道怎么写,求大神指导

《用Python写网络爬虫》——1.3 背景调研

1.3 背景调研 在深入讨论爬取一个网站之前,我们首先需要对目标站点的规模和结构进行一定程度的了解.网站自身的robots.txt和Sitemap文件都可以为我们提供一定的帮助,此外还有一些能提供更详细信息的外部工具,比如Google搜索和WHOIS. 1.3.1 检查robots.txt 大多数网站都会定义robots.txt文件,这样可以让爬虫了解爬取该网站时存在哪些限制.这些限制虽然仅仅作为建议给出,但是良好的网络公民都应当遵守这些限制.在爬取之前,检查robots.txt文件这一宝贵资源

《用Python写网络爬虫》——1.4 编写第一个网络爬虫

1.4 编写第一个网络爬虫 为了抓取网站,我们首先需要下载包含有感兴趣数据的网页,该过程一般被称为爬取(crawling).爬取一个网站有很多种方法,而选用哪种方法更加合适,则取决于目标网站的结构.本章中,首先会探讨如何安全地下载网页,然后会介绍如下3种爬取网站的常见方法: 爬取网站地图: 遍历每个网页的数据库ID: 跟踪网页链接. 1.4.1 下载网页 要想爬取网页,我们首先需要将其下载下来.下面的示例脚本使用Python的urllib2模块下载URL. import urllib2 def

《用Python写网络爬虫》——导读

前 言 互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问.但是,这些数据难以复用.它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用.从网页中抽取数据的过程又被称为网络爬虫.随着越来越多的信息被发布到网络上,网络爬虫也变得越来越有用. 目 录 第1章 网络爬虫简介 1.1 网络爬虫何时有用1.2 网络爬虫是否合法1.3 背景调研 1.3.1 检查robots.txt 1.3.2 检查网站地图 1.3.3 估算网站大小 1.3.4 识别网站所用技术 1.3.5 寻找网站所有者1.

《用Python写网络爬虫》——第1章 网络爬虫简介 1.1 网络爬虫何时有用

第1章 网络爬虫简介 本章中,我们将会介绍如下主题: 网络爬虫领域简介: 解释合法性质疑: 对目标网站进行背景调研: 逐步完善一个高级网络爬虫. 1.1 网络爬虫何时有用 假设我有一个鞋店,并且想要及时了解竞争对手的价格.我可以每天访问他们的网站,与我店铺中鞋子的价格进行对比.但是,如果我店铺中的鞋类品种繁多,或是希望能够更加频繁地查看价格变化的话,就需要花费大量的时间,甚至难以实现.再举一个例子,我看中了一双鞋,想等它促销时再购买.我可能需要每天访问这家鞋店的网站来查看这双鞋是否降价,也许需要

《用Python写网络爬虫》——1.2 网络爬虫是否合法

1.2 网络爬虫是否合法 网络爬虫目前还处于早期的蛮荒阶段,"允许哪些行为"这种基本秩序还处于建设之中.从目前的实践来看,如果抓取数据的行为用于个人使用,则不存在问题:而如果数据用于转载,那么抓取的数据类型就非常关键了. 世界各地法院的一些案件可以帮助我们确定哪些网络爬虫行为是允许的.在Feist Publications, Inc.起诉Rural Telephone Service Co.的案件中,美国联邦最高法院裁定抓取并转载真实数据(比如,电话清单)是允许的.而在澳大利亚,Tel

《用Python写网络爬虫》——1.5 本章小结

1.5 本章小结 本章介绍了网络爬虫,然后开发了一个能够在后续章节中复用的成熟爬虫.此外,我们还介绍了一些外部工具和模块的使用方法,用于了解网站.用户代理.网站地图.爬取延时以及各种爬取策略. 下一章中,我们将讨论如何从已爬取到的网页中获取数据.

《用Python写网络爬虫》——2.2 三种网页抓取方法

2.2 三种网页抓取方法 现在我们已经了解了该网页的结构,下面将要介绍三种抓取其中数据的方法.首先是正则表达式,然后是流行的BeautifulSoup模块,最后是强大的lxml模块. 2.2.1 正则表达式 如果你对正则表达式还不熟悉,或是需要一些提示时,可以查阅https://docs.python.org/2/howto/regex.html 获得完整介绍. 当我们使用正则表达式抓取面积数据时,首先需要尝试匹配 元素中的内容,如下所示. >>> import re >>&