.net中代码采集问题

问题描述

最近在研究采集。。。但是很多问题总是想不明白。。。希望各位帮帮忙。。一个代码分析的问题。。。比如我要获得<divclass="lbConTxt"><ahref="/bizhi_244.html"target="_blank"><imgsrc="http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg"width="160"height="120"alt="曰本CG动漫美女3"style="border:1pxsolid#333"/></a></div>上面代码图片的数据（http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg）我该用什么方法获得。。。

解决方案

解决方案二：
采集的问题非常复杂，不是只言片语可以解释得清楚的有几种思路，一种比一种难，供你参考1、正则表达式2、自己基于DOM开发自己的数据分析类3、针对不同的页面类型，比如htmlxhtml做自己的数据分析类，将页面转换成一棵树，然后去操作，需要做大量容错的工作
解决方案三：
没有做过类似的程序,关注中顶上去
解决方案四：
<divclass="lbConTxt"><ahref="/bizhi_244.html"target="_blank"><imgsrc="http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg"width="160"height="120"alt="曰本CG动漫美女3"style="border:1pxsolid#333"/></a></div>我说的简单一点，采集，最最重要的就是考虑这源文件中要采的数据的或者要采数据的周边数据的唯一性比如你要采src="http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg"//是141159但是页面中有很多个src="http://img9.zol.com.cn/desk_pic/mid_142/122229.jpg"//是122229,或其它数字那么(?<=srcs*=s*")http://img9.zol.com.cn/desk_pic/mid_142/d*.jpg(?=")这样的正则就不行，其实也不是不行，只是移植性，执行性能差的不行因为这个正则会把这个源码中的src="http://img9.zol.com.cn/desk_pic/mid_142/（任意数字）.jpg"//这样的字符串全都匹配说的就这些了
解决方案五：
其实可以先在网上下载一些采集程序,分析研究一下.做采集正则表达式一定要会用,可以在这里测试正则表达式:
解决方案六：
//下载网上图片方法WebClientwc=newWebClient();wc.DownloadFile("http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg","c:\141159.jpg");

解决方案七：
关注一下
解决方案八：
应该有一个类是可以从返回的网页上获取特定元素的相应属性，找找看吧

时间： 2024-10-30 21:54:47

.net中代码采集问题

问题描述

解决方案

.net中代码采集问题的相关文章

php天气预报代码采集自中央气象台范围覆盖全国

jquery使用attr访问自定义属性，减少javascript脚本中代码和数据

用于统计项目中代码总行数的Python脚本分享

Eclipse中代码要无法连接mysql数据库，求大神指教

android开发-android4.2版本的开发时看不懂MainActivity中代码的含义

eclipse中代码问题求解

android studio 中代码为什么会有一块是黄色的高亮显示？

环境变量-下载了dlink dir615d4 路由器的源码想编译，提问几个有关makefile中代码问题？

java-while (true)中代码运行一段时间后出现问题