问题描述
有些网站,打开网页源代码,源代码里面没有自己想要的数据,而明明这些数据在网页上又是显示了的。那请问,这些数据该怎么抓取呢?在源代码里有的数据,我是能够抓取的。
解决方案
解决方案二:
应该是用js从服务器取数据并显示。据说js执行完毕没有事件,因此只能设置个定时器,设置足够的时间,到时候用用Document取得DOM数据。
解决方案三:
那是通过js到后方取数据,然后动态显示上去的,你需要模拟它的提交参数,来获取内容,googleC#模拟提交
解决方案四:
说明这些数据不是这个网页返回的,而是这个网页请求了另一个地址得到的数据显示到这个网页而已,你需要做的就是找出这个地址,模拟请求,得到数据。
解决方案五:
打开IE(IE9以上)的网络捉包功能,刷新一下页,然后在捉以包里搜索你要的东西,然后把那人URL复制出来,就可以了
解决方案六:
引用4楼WM_JAWIN的回复:
打开IE(IE9以上)的网络捉包功能,刷新一下页,然后在捉以包里搜索你要的东西,然后把那人URL复制出来,就可以了
阁下说的是不是这里呢?我以前在这里找过有XML的,然后复制URL就可以获得数据了,但是现在很多网站在这里都没看到有XML类型的,又该怎么办呢?
解决方案七:
估计是嵌套在frame里的,找原始地址
解决方案八:
你看一下,有数据的页面应该有链接的,有可能在脚本文件,或网页中的一个连接 ,你把网址给放出来,看看,
解决方案九:
实际的环境中可能没那么简单,各位大大例如:
解决方案十:
引用7楼wind_cloud2011的回复:
你看一下,有数据的页面应该有链接的,有可能在脚本文件,或网页中的一个连接 ,你把网址给放出来,看看,
http://bjtime.cn/
解决方案十一:
有一款叫做HttpAnalyzerStd的抓包工具,我下了一个,就是不会用。请问,各位大神,这是怎么用的呢?
解决方案十二:
HttpWatch呢,能实现需求吗?
解决方案十三:
比如,下面这个网站,如何抓取时间呢:http://bjtime.cn/
解决方案十四:
现在的浏览器都能满足基本需求,按F12打开开发者工具就可以了,5楼有截图。原理和你说的这两个软件类似。引用10楼wr34545的回复:
有一款叫做HttpAnalyzerStd的抓包工具,我下了一个,就是不会用。请问,各位大神,这是怎么用的呢?
解决方案十五:
时间是在本地自己计算的,函数页面在http://bjtime.cn/tick7.js。同时有一个刷新时间,是调用刚才这个页面的newtime()函数,里面调用http://bjtime.cn/ts2.js中的getnt()函数,请求服务器页面"header10.asp?"+t0,其中t0是客户端的当前时间。引用12楼u011714695的回复:
比如,下面这个网站,如何抓取时间呢:http://bjtime.cn/
解决方案:
有可能是通过flash通信的。有IE捉不到也正常。换其它的抱包工具,
解决方案:
得看,分析,有flash,js都可以实现数据加载。websocket等等。抓包分析吧。
解决方案:
引用15楼WM_JAWIN的回复:
有可能是通过flash通信的。有IE捉不到也正常。换其它的抱包工具,
俺用的是HttpAnalyzerStd,就是不知道怎么抓URL