.net中代码采集问题

问题描述

最近在研究采集。。。但是很多问题总是想不明白。。。希望各位帮帮忙。。一个代码分析的问题。。。比如我要获得<divclass="lbConTxt"><ahref="/bizhi_244.html"target="_blank"><imgsrc="http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg"width="160"height="120"alt="曰本CG动漫美女3"style="border:1pxsolid#333"/></a></div>上面代码图片的数据(http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg)我该用什么方法获得。。。

解决方案

解决方案二:
采集的问题非常复杂,不是只言片语可以解释得清楚的有几种思路,一种比一种难,供你参考1、正则表达式2、自己基于DOM开发自己的数据分析类3、针对不同的页面类型,比如htmlxhtml做自己的数据分析类,将页面转换成一棵树,然后去操作,需要做大量容错的工作
解决方案三:
没有做过类似的程序,关注中顶上去
解决方案四:
<divclass="lbConTxt"><ahref="/bizhi_244.html"target="_blank"><imgsrc="http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg"width="160"height="120"alt="曰本CG动漫美女3"style="border:1pxsolid#333"/></a></div>我说的简单一点,采集,最最重要的就是考虑这源文件中要采的数据的或者要采数据的周边数据的唯一性比如你要采src="http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg"//是141159但是页面中有很多个src="http://img9.zol.com.cn/desk_pic/mid_142/122229.jpg"//是122229,或其它数字那么(?<=srcs*=s*")http://img9.zol.com.cn/desk_pic/mid_142/d*.jpg(?=")这样的正则就不行,其实也不是不行,只是移植性,执行性能差的不行因为这个正则会把这个源码中的src="http://img9.zol.com.cn/desk_pic/mid_142/(任意数字).jpg"//这样的字符串全都匹配说的就这些了
解决方案五:
其实可以先在网上下载一些采集程序,分析研究一下.做采集正则表达式一定要会用,可以在这里测试正则表达式:
解决方案六:
//下载网上图片方法WebClientwc=newWebClient();wc.DownloadFile("http://img9.zol.com.cn/desk_pic/mid_142/141159.jpg","c:\141159.jpg");

解决方案七:
关注一下
解决方案八:
应该有一个类是可以从返回的网页上获取特定元素的相应属性,找找看吧

时间: 2024-10-30 21:54:47

.net中代码采集问题的相关文章

php天气预报代码 采集自中央气象台范围覆盖全国

php教程 天气预报代码 采集自中央气象台范围覆盖全国  天气预报信息采集自中央气象台,信息准确,覆盖面广,代码简单.返回是json代码,可以用于客户端调用,也可以在服务器端处理后显示,笔者的wordpress天气预报插件就是使用的这段代码哦.需要注意的是,这段代码会在服务器产生缓存文件,需要在当前目录中新建data文件夹,保证文件夹可写 作者:    freemouse      主页:    www.cnphp.info      接口demo: http://www.cnphp.info/

jquery使用attr访问自定义属性,减少javascript脚本中代码和数据

[示例代码]<html> <head> <script src="jquery-1.2.js"></script> <script> $(document).ready ( function () { $("#link").click ( function () { alert($(this).attr("var")); } ); } ); </script> </he

用于统计项目中代码总行数的Python脚本分享

  这篇文章主要介绍了用于统计项目中代码总行数的Python脚本分享,本文直接给出实现代码,需要的朋友可以参考下 最近需要统计一下项目中代码的总行数,写了一个Python小程序,不得不说Python是多么的简洁,如果用Java写至少是现在代码的2倍. [code] import os path="/Users/rony/workspace/ecommerce/ecommerce/hot-deploy/" global totalcount totalcount =0 def cfile

Eclipse中代码要无法连接mysql数据库,求大神指教

问题描述 Eclipse中代码要无法连接mysql数据库,求大神指教 结果显示是这样:Exception in thread ""main"" java.lang.ClassNotFoundException: com.mysql.jdbc.Driver at java.net.URLClassLoader$1.run(Unknown Source) at java.security.AccessController.doPrivileged(Native Meth

android开发-android4.2版本的开发时看不懂MainActivity中代码的含义

问题描述 android4.2版本的开发时看不懂MainActivity中代码的含义 新版android eclipse中的MainActivity.java里面增加了好多新的代码,因为还是菜鸟一只,好多代码都不知道是什么作用,求大神指教.之前就一直把代码敲错位置了,耽误了好久,后来总算知道错在哪里了,为了错误不再重犯,求教大神解释整个默认的代码片段大致是什么含义.` enter code here package com.example.helloworld; import android.s

eclipse中代码问题求解

问题描述 eclipse中代码问题求解 package com.Myhome.model; import java.util.Vector; import javax.swing.JFrame; import javax.swing.JScrollBar; import javax.swing.JScrollPane; import javax.swing.JTable; import java.sql.*; public class one extends JFrame{ //rowData用

android studio 中代码为什么会有一块是黄色的高亮显示?

问题描述 android studio 中代码为什么会有一块是黄色的高亮显示? 百度没有找到理想的答案 解决方案 提示你,这块有内存泄露的危险,handler最好声明为static的,里面对外部类,使用若引用 解决方案二: 就是警告的意思 说明这里可以优化 解决方案三: 工作区背景设置问题,去preferences找找看,重新设置背景颜色

环境变量-下载了dlink dir615d4 路由器的源码想编译,提问几个有关makefile中代码问题?

问题描述 下载了dlink dir615d4 路由器的源码想编译,提问几个有关makefile中代码问题? 如题,获取源码后,在主目录的makefile中有几行代码不认识,希望懂的朋友帮忙解释一下.这是第一次自己编译路由器源码,请问有什么需要注意的吗?始终编译没有通过,需要在终端中定义一些环境变量吗?之前编译的时候始终显示有几个环境变量没有定义,但是在config文档中发现那些变量已经定义了啊! makefile中一部分代码,如下: generate_def_value: ifneq ($(st

java-while (true)中代码运行一段时间后出现问题

问题描述 while (true)中代码运行一段时间后出现问题 下面是我写的一段java代码,希望通过循环不断的执行一些函数,但是运行一段时间后,程序没有出现异常,也没有停止,但是没有过像之前一样循环执行了,请教一下原因. int month = 0; int minute = 0; SimpleDateFormat sdf = new SimpleDateFormat("yyy-MM-dd HH:mm"); Date dt = new Date(); String d = sdf.f