这种网页数据,怎么抓取

问题描述

有些网站,打开网页源代码,源代码里面没有自己想要的数据,而明明这些数据在网页上又是显示了的。那请问,这些数据该怎么抓取呢?在源代码里有的数据,我是能够抓取的。

解决方案

解决方案二:
应该是用js从服务器取数据并显示。据说js执行完毕没有事件,因此只能设置个定时器,设置足够的时间,到时候用用Document取得DOM数据。
解决方案三:
那是通过js到后方取数据,然后动态显示上去的,你需要模拟它的提交参数,来获取内容,googleC#模拟提交
解决方案四:
说明这些数据不是这个网页返回的,而是这个网页请求了另一个地址得到的数据显示到这个网页而已,你需要做的就是找出这个地址,模拟请求,得到数据。
解决方案五:
打开IE(IE9以上)的网络捉包功能,刷新一下页,然后在捉以包里搜索你要的东西,然后把那人URL复制出来,就可以了
解决方案六:
引用4楼WM_JAWIN的回复:

打开IE(IE9以上)的网络捉包功能,刷新一下页,然后在捉以包里搜索你要的东西,然后把那人URL复制出来,就可以了

阁下说的是不是这里呢?我以前在这里找过有XML的,然后复制URL就可以获得数据了,但是现在很多网站在这里都没看到有XML类型的,又该怎么办呢?
解决方案七:
估计是嵌套在frame里的,找原始地址
解决方案八:
你看一下,有数据的页面应该有链接的,有可能在脚本文件,或网页中的一个连接 ,你把网址给放出来,看看,
解决方案九:
实际的环境中可能没那么简单,各位大大例如:
解决方案十:
引用7楼wind_cloud2011的回复:

你看一下,有数据的页面应该有链接的,有可能在脚本文件,或网页中的一个连接 ,你把网址给放出来,看看,

http://bjtime.cn/
解决方案十一:
有一款叫做HttpAnalyzerStd的抓包工具,我下了一个,就是不会用。请问,各位大神,这是怎么用的呢?
解决方案十二:
H​t​t​p​W​a​t​c​h呢,能实现需求吗?
解决方案十三:
比如,下面这个网站,如何抓取时间呢:http://bjtime.cn/
解决方案十四:
现在的浏览器都能满足基本需求,按F12打开开发者工具就可以了,5楼有截图。原理和你说的这两个软件类似。引用10楼wr34545的回复:

有一款叫做HttpAnalyzerStd的抓包工具,我下了一个,就是不会用。请问,各位大神,这是怎么用的呢?

解决方案十五:
时间是在本地自己计算的,函数页面在http://bjtime.cn/tick7.js。同时有一个刷新时间,是调用刚才这个页面的newtime()函数,里面调用http://bjtime.cn/ts2.js中的getnt()函数,请求服务器页面"header10.asp?"+t0,其中t0是客户端的当前时间。引用12楼u011714695的回复:

比如,下面这个网站,如何抓取时间呢:http://bjtime.cn/

解决方案:
有可能是通过flash通信的。有IE捉不到也正常。换其它的抱包工具,
解决方案:
得看,分析,有flash,js都可以实现数据加载。websocket等等。抓包分析吧。
解决方案:
引用15楼WM_JAWIN的回复:

有可能是通过flash通信的。有IE捉不到也正常。换其它的抱包工具,

俺用的是HttpAnalyzerStd,就是不知道怎么抓URL

时间: 2024-11-02 16:07:19

这种网页数据,怎么抓取的相关文章

base64-网页显示了数据,抓取网页源码无法找到数据

问题描述 网页显示了数据,抓取网页源码无法找到数据 用java抓取某个网站登录后的数据,登录成功,但是貌似遇到数据加密,table里面的数据都是由js生成,而且我有看到有引用base64.js和rsa.js,研究了几天还是没办法抓取到数据,前辈们能不能给个指导路线,网址是http://dev.10086.cn/datau/modules/views/dataana.jsp 解决方案 fiddler先抓包,然后分析浏览器请求的参数和地址,在你的程序中照着做.

asp采集-ASP采集小偷,指定数据无法抓取

问题描述 ASP采集小偷,指定数据无法抓取 http://chaxun.ttk.cn:8084/BarScanRecord/trackInfo_jsp.jsp?expBill=560230596486&opeCate=2 页面里我只想偷取,当前状态:已签收,但一直无法实现,请指教以下为小偷代码 <% '功能:asp采集代码 'url=""http://www.kuaidi100.com/query?type=tiantian&postid=560230596486

php通过curl单独抓取网页可以,抓取多个就会出错

问题描述 php通过curl单独抓取网页可以,抓取多个就会出错 使用curl单独抓取http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5722可行,但是如果抓取相同类型的一系列网站就会出错,将他们放在数组 $linkList中,分别是http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5722,http://jobs.hubu.e

c# 正则表达式对网页进行内容抓取

原文 c# 正则表达式对网页进行内容抓取 搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容.简单来说,就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分(我们这里不考虑图片). 将HTML文本中的标记分为:注释,script ,style,以及其他标记分别去掉: 1.去注释,正则为: output = Regex.Replace(input, @"<!--[^-]*-->", string.Empty, RegexOptions.

提高网页被搜索引擎抓取、索引和排名的方法

首先通过下图看看通常网站的架构图:   典型的网站外链分布图 然后我们看看一个典型网站外链分布图:   爬虫抓取路径的优先级 下面要讲到一个被很多SEO们误解的重要概念.很久以前,搜索引擎的爬虫(机器人)大部分时间都会递归地抓取某个网站(通过你提交的网站首页网址,然后通过网页上发现的链接抓取这些链接所指向的网页,周而复始).但现在不是那么回事了,就像下面的图一样,搜索引擎的爬虫抓取时会有多个进入点,并且每个进入点都同样重要,然后再从这些进入点向外扩散,进行抓取.     搜索引擎爬虫抓取路径的优

使用python和tableau对数据进行抓取及可视化

本篇文章介绍使用python抓取贷款及理财平台的数据,并将数据拼接和汇总.最终通过tableau进行可视化.与之前的python爬虫文章 不同之处在于之前是一次性抓取生产数据表,本次的数据需要每天重复抓取及存储,并汇总在一起进行分析和可视化. 开始前的准备工作 开始之前先导入所需使用的库文件,各个库文件在整个抓取和拼表过程中负责不同的部分.Requests负责页面抓取,re负责从抓取下 来的页面中提取有用的信息,pandas负责拼接并生成数据表以及最终的数据表导出. </pre>  #导入re

url-使用Python抓取下一页网页数据

问题描述 使用Python抓取下一页网页数据 怎么抓取一个无论怎么跳转其url都不变的网页?通过Requests和BeautifulSoup能实现吗? http://www.szairport.com/frontapp/HbxxServlet?iscookie=C 另外其下一页的跳转指令是js写的,我该怎么通过这条指令跳转下一页,命令如下: [<a href="javascript:void(0);" onclick="page.moveNext()">

利用Jsoup解析网页及抓取数据的简单应用

最近一直在公司利用爬虫技术,去抓取一些网页查询网站备案信息,刚开始使用HttpClient 和 jericho (这两个也挺好用你可以去测试一下).但是后来发现了Jsoup,他和Jquery很相似,在搜节点上使用的技术几乎相似.所以凡是使用过Jquery的都可以去尝试使用Jsoup去解析抓取数据.下面举个例子我们去抓去所有公交车的信息(哥是郑州的哈). 在解析之前你需要jar包,你可以去http://jsoup.org/直接下载.如果使用maven更方便 只需引进依赖 例如 <dependenc

求教如何通过python抓取网页中表格信息

问题描述 求教如何通过python抓取网页中表格信息 刚刚开始学习python 不清楚如何通过python抓取网页中的表格信息 比如给定一个student.html 里面有学号.姓名.性别等信息 怎么样写才能够输入学号 读出其他信息? 解决方案 用正则表达式,表格数据放在table->tr->td中 解决方案二: 输入学号然后服务器在给你其他数据,应该是一个post的过程-你可以抓包看一下整个过程-至于提取特定的信息,你可以先看下整个表格的结构,再有针对性的写个正则表达式来提取出信息- 解决方

如何抓取天猫和淘宝的运营数据?

对通用网站的数据抓取,比如:谷歌和百度,都有自己的爬虫,当然,爬虫也都是有程序写出来的.根据百度百科的定义:网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫.不过,淘宝为了屏蔽网络爬虫对自身数据(例如商品价格.月销量.收藏量.评价.月成交记录等等)的抓取,往往是采取一种名叫Ajax的技术,在网页加载完成后,再次加载这些数据,所以通用的网络爬虫抓取技术对抓取淘宝的这些数据是无效的.针对淘宝