问题描述
如题,求大神给点思路
解决方案
解决方案二:
你现在到底是从网页上抓数据不会,还是抓到数据后过滤出最新的10条不会?
解决方案三:
网页上去抓取不会引用1楼Z65443344的回复:
你现在到底是从网页上抓数据不会,还是抓到数据后过滤出最新的10条不会?
解决方案四:
解决方案五:
RSS字符串补丁
解决方案六:
引用4楼romanchaos的回复:
RSS字符串补丁
相当于用网络爬虫去取指定网站,然后再去截取里面的新闻
解决方案七:
网络爬虫的功能
解决方案八:
privatestringGetWebContent(stringurl){stringstrResult="";try{HttpWebRequestrequest=(HttpWebRequest)WebRequest.Create(url);request.Timeout=10*1000;//设置连接超时时;request.Headers.Set("Pragma","no-cache");HttpWebResponseresponse=(HttpWebResponse)request.GetResponse();StreamstreamReceive=response.GetResponseStream();Encodingencoding=Encoding.GetEncoding("UTF-8");StreamReaderstreamReader=newStreamReader(streamReceive,encoding);strResult=streamReader.ReadToEnd();streamReader.Close();response.Close();}catch(Exceptionex){strResult=ex.Message+"nFailedtoreadthecontentsof""+url+"".Pleasecheckitmanually!";}returnstrResult;}
解决方案九:
引用6楼xiaoxin3357的回复:
网络爬虫的功能
网络爬虫可以取出链接出来,过滤到其中的图片,但还有很多其他的链接.怎么去区分哪些是新闻,哪些是广告
解决方案十:
引用8楼lkmepte的回复:
Quote: 引用6楼xiaoxin3357的回复:
网络爬虫的功能网络爬虫可以取出链接出来,过滤到其中的图片,但还有很多其他的链接.怎么去区分哪些是新闻,哪些是广告
你是如何区分一个网页里哪些是内容,哪些是广告的?
解决方案十一:
可以参考一下这个博客园整站文件采集器源码,使用了多线程和正则提取链接,正文智能提取:
解决方案十二:
你好我目前也正在做這部分相關的可以給你一些建議我是用htmltag去抓取的然後可以設變數X讓X存在於你的htmltag裡面就可以一次抓十筆