问题描述
现在要采集一个网站的数据,前提是这个网站需要登陆才能看到企业的联系方式,原以为只要我在这个网站注册登陆了用WebClient类就可以直接采集,但是发现下载的源代码企业联系方式区域还是看不到,这个网站用户信息是保存在Session中。要想看到企业联系方式区域的源代码在程序怎样实现?我在网上看了好像用Ethereal侦测Session信息,请问各位大侠具体应该怎么实现?在线跪求答案!!!
解决方案
解决方案二:
不能去抓取网页读取吗?
解决方案三:
mark
解决方案四:
http://www.cnblogs.com/hongyin163/archive/2009/02/11/1388615.html这个应该能解决你的问题
解决方案五:
保存在Session中也没有关系,可以实现抓取的功能,可能有一些必要页面没有访问,比如在Login.aspx登陆后,跳转到Main.aspx中去记录Session信息,然后又跳到Index.aspx中,如果你没有访问Main.aspx,当然你就不能保存用户信息,建议你使用Fiddler2来截获网站地址,从而分析网站的登录流程,这样你就可以抓取到页面了。使用HttpWebRequest,HttpWebResponse来抓取页面
时间: 2024-10-28 06:58:21