抓取网页萃取网页内容的代码

网页

dim sUrl
 sUrl="http://travel.state.gov/visa/frvi_bulletincurrent.html"
 Function streamtochar(StrStream)
 set stream=CreateObject("ADODB.Stream")
 stream.type=1
 stream.Mode=3
 stream.Open
 stream.Write Strstream
 stream.Position= 0
 stream.Type= 2
 stream.Charset="gb2312"
 streamtochar= stream.ReadText
 stream.Close
 set stream=nothing
 End Function
 i = i + 1
 function getContentByUrl(url)
 set XmlHttp = CreateObject("MSXML2.XMLHTTP")
 XmlHttp.open "GET",url,false
 XmlHttp.send
 getContentByUrl = streamtochar(oXmlHttp.responseBody)
 set XmlHttp=nothing
 end function

 function getRealContent(url)
 sContent = getContentByUrl(url)
 getRealContent=sContent
 end function

html= getContentByUrl(surl)
 url_start=inStr(html," " )  url_end=inStr(html," ")
 url=Mid(html,url_start,url_end-url_start)
 url=replace(url,"“)

 Date_start=inStr(html,"Washington, D.C. ")+57
 Date_end=inStr(html," A. STATUTORY")-14
 Date_T=Mid(html,Date_start,Date_end-Date_start)

时间: 2024-08-28 12:07:27

抓取网页萃取网页内容的代码的相关文章

PHP实现抓取网页的所有超链接的代码

因为最近要做一个类似专业搜索引擎的东西,需要抓取网页的所有超链接.大家帮忙测试一下子,下面的代码是否可以针对所有的标准超链接. 通用HTML标准超链接参数取得正则表达式测试 因为最近要做一个类似专业搜索引擎的东西,需要抓取网页的所有超链接. 大家帮忙测试一下子,下面的代码是否可以针对所有的标准超链接. 测试代码如下:   <?php  // -------------------------------------------------------------------------- // 

PHP取网页所有链接实现程序代码总结

我们核心代码就是正则表达试了  代码如下 复制代码 function get_all_url($code){              preg_match_all('/<as+href=["|']?([^>"' ]+)["|']?s*[^>]*>([^>]+)</a>/i',$code,$arr);             return array('name'=>$arr[2],'url'=>$arr[1]); } 上

Python urllib、urllib2、httplib抓取网页代码实例

  这篇文章主要介绍了Python urllib.urllib2.httplib抓取网页代码实例,本文直接给出demo代码,代码中包含详细注释,需要的朋友可以参考下 使用urllib2,太强大了 试了下用代理登陆拉取cookie,跳转抓图片...... 文档:http://docs.python.org/library/urllib2.html 直接上demo代码了 包括:直接拉取,使用Reuqest(post/get),使用代理,cookie,跳转处理 ? 1 2 3 4 5 6 7 8 9

java代码抓取网页邮箱的实现方法_java

实现思路: 1.使用java.net.URL对象,绑定网络上某一个网页的地址 2.通过java.net.URL对象的openConnection()方法获得一个HttpConnection对象 3.通过HttpConnection对象的getInputStream()方法获得该网络文件的输入流对象InputStream 4.循环读取流中的每一行数据,并由Pattern对象编译的正则表达式区配每一行字符,取得email地址 package cn.sdhzzl; import java.io.Buf

PHP的cURL库功能简介:抓取网页,POST数据及其他

  使用PHP的cURL库可以简单和有效地去抓网页.你只需要运行一个脚本,然后分析一下你所抓取的网页,然后就可以以程序的方式得到你想要的数据了.无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,cURL 是一个功能强大的PHP库.本文主要讲述如果使用这个PHP库. 启用 cURL 设置 首先,我们得先要确定我们的PHP是否开启了这个库,你可以通过使用php_info()函数来得到这一信息. ﹤?php phpinfo(); ?﹥ 如果你可以在网

PHP使用CURL实现多线程抓取网页_php技巧

PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址.既然 Curl Multi Function如此强大,能否用 Curl Multi Functions 来写并发多线程下载文件呢,当然可以,下面给出我的代码: 代码1:将获得的代码直接写入某个文件 <?php $urls

java使用正则抓取网页邮箱_java

使用正则抓捕网上邮箱 这就是我们需要抓捕的网站. 实现思路: 1.使用java.net.URL对象,绑定网络上某一个网页的地址 2.通过java.net.URL对象的openConnection()方法获得一个HttpConnection对象 3.通过HttpConnection对象的getInputStream()方法获得该网络文件的输入流对象InputStream 4.循环读取流中的每一行数据,并由Pattern对象编译的正则表达式区配每一行字符,取得email地址 下面是我们的代码: pa

PHP的cURL库功能简介 抓取网页、POST数据及其他_php技巧

无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,反应釜cURL 是一个功能强大的PHP库.本文主要讲述如果使用这个PHP库. 启用 cURL 设置 首先,我们得先要确定我们的PHP是否开启了这个库,你可以通过使用php_info()函数来得到这一信息. 复制代码 代码如下: <?php phpinfo(); ?> 如果你可以在网页上看到下面的输出,那么表示cURL库已被开启. 如果你看到的话,那么你需要设置你的PHP并开启这个库.如果你是在

php cURL 抓取网页 POST数据及其他

使用PHP的cURL库可以简单和有效地去抓网页.你只需要运行一个脚本,然后分析一下你所抓取的网页,然后就可以以程序的方式得到你想要的数据了.无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库教程,那怕就是简单的获取网页内容,cURL 是一个功能强大的PHP库.本文主要讲述如果使用这个PHP库. 启用 cURL 设置 首先,我们得先要确定我们的PHP是否开启了这个库,你可以通过使用php教程_info()函数来得到这一信息. <?php phpinfo(); ?> 如果你可