数据采集程序(网页小偷)点滴心得

采集|程序|数据|网页|心得

 
所谓的数据采集程序也就是网页小偷程序(大家别骂我哦),写完了来这里发点东西,希望大家有何高见共同研究.

1.在下载数据的开始,有些网站是要登录了才能看到相应的数据,这个就需要我们发送登录用户名和密码了,但我是登录了,但他服务器也不是垃圾,在他那里重定向了,共产生了2个SESSION,这第2个SESSION我就不知道如何捕抓.于是我就投机^-^,用软件将SESSION捕抓下来了1个叫Ethereal的软件,用以下代码加入到HTTP请求的头部
WebClient myWebClient = new WebClient();
string sessionkey=textBox78.Text;
     string refererurl=textBox77.Text;
     myWebClient.Headers.Clear();    
     myWebClient.Headers.Add("Cookie",sessionkey);
     myWebClient.Headers.Add("Referer", refererurl);
     myWebClient.Headers.Add("User-agent", "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.5) Gecko/20031107 Debian/1.5-3");
这样就欺骗了服务器了,哈哈

2.第二部就是代码下载
byte[] myDataBuffer = myWebClient.DownloadData(remoteUri);
 download = Encoding.Default.GetString(myDataBuffer);

3.第3部就是数据的匹配了,我是将流读取到数据里,然后用IndexOf得到2个关键字段的位置,然后用Substring取出来的,我知道这很笨,但用正则表达式难啊(谁会的指点我下),匹配完了得到的字符串我就用以下的函数去掉了HTML代码:
private string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"<script[^>]*?>.*?</script>",
          @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
          @"([\r\n])[\s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"(\d+);",
          @"-->",
          @"<!--.*\n"        
         };

   string [] aryRep = {
           "",
           "",
           "",
           "\"",
           "&",
           "<",
           ">",
           " ",
           "\xa1",//chr(161),
           "\xa2",//chr(162),
           "\xa3",//chr(163),
           "\xa9",//chr(169),
           "",
           "\r\n",
           ""
          };

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
  
   }

   strOutput.Replace("<","");
   strOutput.Replace(">","");
   strOutput.Replace("\r\n","");

   return strOutput;
  }

4.到了后面就是入库了,这个大家都懂了吧.但是我还有点问题就是,在我写数据的时候,出了EXCEPTION,说我的字段太长了,不能写进到数据库,我用的是ACCESS,我试验下用SQL吧.

5.大家有什么好的建议给我留个言赛.共同进步嘛.

时间: 2024-10-31 20:50:50

数据采集程序(网页小偷)点滴心得的相关文章

ASP.Net、C#实现网页小偷程序

asp.net|程序|网页|小偷程序 ASP.Net.C#实现网页小偷程序      在ASP中实现小偷是使用XMLHTTP对象,最近在学习.net时看到了WebClient类,于是将过去用来做小偷的程序改了一下,使用ASP.Net.C#来实现,程序写的比较简单,目的是为了起到抛砖引玉的作者,希望能与各位一起探讨,使之更加完善,下一步我将使之实现根据设置可以获取网页中指定的内容.以下是程序部分,包括在WEB页中的ASP.NET的源程序和C#中的源程序. ASP.Net (GetWebconten

网页小偷程序ASP.net

以前写过一个网页小偷程序,是ASP版的http://aowind.cnblogs.com/archive/2005/07/16/193858.html 今天看到.net里的WEBCLIENT,试试了它的方法等,发现很好用,就用它改成了以前ASP版的网页小偷,写成ASP.net版的了,嘿嘿! Imports System.netImports System.ioPublic Class WebForm1Class WebForm1    Inherits System.Web.UI.Page Pu

PHP数据采集程序采集天气网数据实例演示

前言 我们在写一个Web程序的时候,总会想着把自己的网站更美观一些,功能能更多一些,有时候写一些小的工具或者加上小的插件会让我们的站点更加完善.比如万年历功能,比如我们现在要讲的天气预报功能. 当然我们没法利用专业的卫星接受数据,所以我们的天气数据来自现有的天气预报网站.利用天气预报网站提供的数据服务,我们可以写一个PHP爬虫,然后动态采集我们所需要的数据,并且在目标站点更新数据的时候,我们的程序也能做到同步更新,自动地获取数据. 下面就介绍一下如何编写一个简单的PHP数据采集程序(PHP爬虫)

如何写ASP入库小偷程序_小偷/采集

现在网上流行的小偷程序比较多,有新闻类小偷,音乐小偷,下载小偷,那么它们是如何做的呢,下面我来做个简单介绍,希望对各位站长有所帮助. (一)原理 小偷程序实际上是通过了XML中的XMLHTTP组件调用其它网站上的网页.比如新闻小偷程序,很多都是调用了sina的新闻网页,并且对其中的html进行了一些替换,同时对广告也进行了过滤.用小偷程序的优点有:无须维护网站,因为小偷程序中的数据来自其他网站,它将随着该网站的更新而更新:可以节省服务器资源,一般小偷程序就几个文件,所有网页内容都是来自其他网站.

新手主页制作点滴心得

心得 网页的制作是一个痛苦的过程,对于一个新手,既想节约时间,又希望能够在网络上证明自己,做出好的网页,的确是比较困难的一件事.其间会走不少的弯路,碰许多的钉子,或许到访的朋友许多都有这种体会.我的主页花费了我三天的时间,加上盲目地申请主页空间.域名等,一共是近五天时间除吃饭睡觉外都花费在这上面了.现在回想一下,如果有比较明确的指导,自然会节省不少时间与精力.本着这个想法,我把自己的几点体会写出来,谨于此希望对朋友们有所帮助. 第一步:明确自己网站主题,制作网页 1:初次上网,最容易的就是被五花

和韩雪冬学到的网页设计点滴

跟着韩老师学了一段时间的网页设计,觉得非常有必要把自己学到的东西梳理总结一下,一方面进一步巩固知识,另一方面和大家分享,下面是我的学习心得. 一.要把网页设计当成玩儿,而不单单是工作. 这其实说的是兴趣的事儿,作为网页设计师,一定要对网页设计感兴趣,你才能痛并快乐着,要不每天忙于应付客户交付的任务,就只剩痛苦了.韩老师现在还在给客户做大量设计的同时,有事没事的画个猪头或者煤气罐啥的,其实就是一种玩儿的态度.为啥做东西都挺累人了,他还要自己折腾呢?感兴趣呗!自己动手设计出来挺酷.挺炫的东西一方面会

用xmlhttp编写web采集程序_小偷/采集

晰带语法着色的版本:http://gwx.showus.net/blog/article.asp?id=229 原创很辛苦,转载请注明原文链接:http://gwx.showus.net/blog/article.asp?id=229 web采集程序?网页抓取程序?小倫程序?不管怎么叫,这种程序应用倒是蛮广的.本文不讨论这种使用这种程序引起的版权或道德问题,只谈这种程序在ASP+VBScript环境下的实现 :-) 预备知识:除了一般的ASP+VBScript的知识外,你还需要了解xmlhttp

高分求数据采集程序

问题描述 谁有数据采集的程序:就是时时搜索别人的网站,获得里面的数据,然后填充到自己的数据库中,有的发下,或发我邮箱

自己做采集程序_小偷/采集

现在网上的采集程序很多,但是有时候你发现一个好的网站,想自己做个采集工具采集一些信息,就需要自己去写程序了,其实这样的采集程序并不难写,主要是去分析源网站的网页结构.首先去下载个XMLHTTP的类文件:<%Class xhttpprivate cset,sUrl,sErrorPrivate Sub Class_Initialize()'cset="UTF-8"cset="GB2312"sError=""end sub Private Sub