问个关于爬虫的问题

问题描述

今天第一天去公司试岗,主管叫我写个爬虫。抓取某个网站的数据。我用的是:WebClientwc=newWebClient();byte[]data=wc.DownloadData(url);stringhtmlText=Encoding.UTF8.GetString(data);当我用正则匹配某个字段的时候,出了些问题,就是我通过上面方法得到的数据和我在浏览器上点击查看源代码的html代码并不同。有些在网页上显示且需要的数据根本没有。我第一感觉就是那个网站某些数据是用js或者ajax请求之类的获取并填充在html元素上的。但是我用WebClient的DownloadData方法只能获取到它网站的源html代码。而后面在客户端通过js动态生成或设置的数据我没法得到。请问有什么办法可以解决。

解决方案

解决方案二:
问你的主管。你们公司de主管不是用户,不是仅仅负责重复用户的需求语言的,而是应该负责设计、分工、明确每一个人都应该完善哪些代码文件、需要什么技术和不用什么技术方案。如果你的主管就是一个搞行政的,只负责当老板和用户的传声筒,那么你就问同事。
解决方案三:
目前页面不需要登录的话,可以在页面中用WebClient和HttpWebRequest都能应付。如果有需要登录的过程,那么还是推荐写成控制台用WebBrowser来处理。
解决方案四:
引用2楼minhua1983的回复:

目前页面不需要登录的话,可以在页面中用WebClient和HttpWebRequest都能应付。如果有需要登录的过程,那么还是推荐写成控制台用WebBrowser来处理。

大部分登录,只要记录cookie,也是OK的。先模拟登录后再将cookie传入
解决方案五:
引用1楼sp1234的回复:

问你的主管。你们公司de主管不是用户,不是仅仅负责重复用户的需求语言的,而是应该负责设计、分工、明确每一个人都应该完善哪些代码文件、需要什么技术和不用什么技术方案。如果你的主管就是一个搞行政的,只负责当老板和用户的传声筒,那么你就问同事。

这哥们是政治委员啊,啥问题不解决,到处训人混分
解决方案六:
找下源码以及看下这个页面的XHR(F12),先找到数据来源再说。如果是ajax动态获取的话你直接用HttpWebRequest请求那个ajax地址就行了呗

时间: 2024-10-28 15:53:30

问个关于爬虫的问题的相关文章

前端-新手关于Python爬虫的问题

问题描述 新手关于Python爬虫的问题 Python入门不久的新手想问下做爬虫需要知道哪些前端的知识呢,本人完全前端白痴一个... 谢谢!!! 解决方案 XML Regular Expression HTML Javascript CSS Shell Linux 能学的尽量都学,知识面广点. 解决方案二: pycurl,抓取网页 正则表达式匹配 递归算法,html和dom http协议 熟练使用抓包神器fiddler

垂直型爬虫架构设计(1)

从事爬虫方向开发马上也将近两年时间了,今天基友问我关于爬虫的架构设计问题.其实这么久也想总结一下自己的整个开发的过程,架构的设计问题..对自己进行一些总结..仅作参考. 1.爬虫的分类 : 对于我来说,爬虫分为两类: 需要载入配置文件的爬虫与不需要载入配置文件的爬虫. 其实也就是人们常说的垂直型爬虫跟宽度(深度)遍历爬虫. 2.爬虫的架构: 1.宽度遍历爬虫. 做过SEO的朋友大概都知道,如果一个网站需要百度能够尽快的抓取,那么仅仅优化关键词,提高权重等都是比较简单的优化,爬虫友好性需要网站在建

Hackbuteer1的专栏Stay Hungry,Stay Foolish!

转自:http://blog.csdn.net/Hackbuteer1/rss/list [原]九度互动社区IT名企招聘上机考试热身赛 http://ac.jobdu.com/problem.php?id=1326     Waiting in Line   //简单模拟题 #include<iostream> #include<cstdio> using namespace std; #include<memory.h> int pt[1001],leave[1001

python-Python爬虫爬取网页源代码为空,求问原因&amp;amp;amp;解决方案(向)

问题描述 Python爬虫爬取网页源代码为空,求问原因&解决方案(向) 代码如下:import urllibimport urllib2import re url ='http://www.yingjiesheng.com/guangzhou-moreptjob-2.html'req = urllib2.Request(url)try: html = urllib2.urlopen(req).read() print htmlexcept urllib2.HTTPError e: print '

诚心求问,如何才能让爬虫爬到看不到的链接呢?

问题描述 公司让爬淘宝的数据,可是淘宝具体商品的链接都被隐藏起来了呢.http://list.taobao.com/itemlist/default.htm?cat=50000697&sd=0&as=0&viewIndex=1&spm=a2106.2206569.0.0.gcPy7P&atype=b&style=grid&same_info=1&tid=0&isnew=2&_input_charset=utf-8比如这个链接,

python-请问scrapy爬虫使用代理的问题

问题描述 请问scrapy爬虫使用代理的问题 我用scrapy爬虫来抓取数据,购买了一些代理,看scrapy文档上面介绍使用代理的话要编写Middleware,但是我不打算使用Middleware,我尝试了这样 def start_requests(self): name = my_name password = password proxy = my proxy return[ FormRequest(url,formate={'account':my_name,'password':pass

Python网络爬虫反爬破解策略实战

​​作者:韦玮 转载请注明出处 我们经常会写一 些网络爬虫,想必大家都会有一个感受,写爬虫虽然不难,但是反爬处理却很难,因为现在大部分的网站都有自己的反爬机制,所以我们要爬取这些数据会比较难.但是,每一种反爬机制其实我们都会有相应的解决方案,作为爬虫方的我们,重点需要处理这些反爬机制,所以,今天我们在这里就为大家分析常见的反爬策略以及破解的手段. 1. 知己知彼-常见的反爬策略有哪些? 首先,既然要破解这些常见的反爬策略,就首先需要知道常见的反爬策略有哪些,所谓知己知彼,百战百胜. 常见的反爬策

《Python爬虫开发与项目实战》——导读

前言 当你看前言的时候,不得不说你做出了一个聪明的选择,因为前言中有作者对整本书的概括和学习建议,这会对大家之后的阅读产生事半功倍的效果.在聊这本书之前.大家可以在Github中对不懂的内容进行提问,我会尽可能地帮助大家解决问题.其实在前言开头放这个链接是挺突兀的,不过确实是担心大家不会完整地看完前言. 接下来聊一聊这本书,写这本书的原因来自于我个人的微信公众号:七夜安全博客.我经常在博客园.知乎和微信平台上发布技术文章,分享一些知识和见解,有很多热心的朋友愿意和我进行交流讨论.记得2016年4

scrapy 爬虫 环境搭建入门(一)

Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据.抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样. Scr