问题描述
最近在研究采集。。。但是很多问题总是想不明白。。。希望各位帮帮忙。。一个代码分析的问题。。。比如我要获得<divclass="lbConTxt"><ahref="/bizhi_244.html"target="_blank"><imgsrc="http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg"width="160"height="120"alt="曰本CG动漫美女3"style="border:1pxsolid#333"/></a></div>上面代码图片的数据(http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg)我该用什么方法获得。。。
解决方案
解决方案二:
采集的问题非常复杂,不是只言片语可以解释得清楚的有几种思路,一种比一种难,供你参考1、正则表达式2、自己基于DOM开发自己的数据分析类3、针对不同的页面类型,比如htmlxhtml做自己的数据分析类,将页面转换成一棵树,然后去操作,需要做大量容错的工作
解决方案三:
没有做过类似的程序,关注中顶上去
解决方案四:
<divclass="lbConTxt"><ahref="/bizhi_244.html"target="_blank"><imgsrc="http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg"width="160"height="120"alt="曰本CG动漫美女3"style="border:1pxsolid#333"/></a></div>我说的简单一点,采集,最最重要的就是考虑这源文件中要采的数据的或者要采数据的周边数据的唯一性比如你要采src="http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg"//是141159但是页面中有很多个src="http://img9.zol.com.cn/desk_pic/mid_142/122229.jpg"//是122229,或其它数字那么(?<=srcs*=s*")http://img9.zol.com.cn/desk_pic/mid_142/d*.jpg(?=")这样的正则就不行,其实也不是不行,只是移植性,执行性能差的不行因为这个正则会把这个源码中的src="http://img9.zol.com.cn/desk_pic/mid_142/(任意数字).jpg"//这样的字符串全都匹配说的就这些了
解决方案五:
其实可以先在网上下载一些采集程序,分析研究一下.做采集正则表达式一定要会用,可以在这里测试正则表达式:
解决方案六:
//下载网上图片方法WebClientwc=newWebClient();wc.DownloadFile("http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg","c:\141159.jpg");
解决方案七:
关注一下
解决方案八:
应该有一个类是可以从返回的网页上获取特定元素的相应属性,找找看吧