网页内容截取组件

网页

技术要点:可以对固定的字符串进行截取其中的某一部分,亦可以对某一网页进行页面截取.
安装方法:把上面的文件包下载后,解压后,双击reg.bat即可注册组件.然后把里面的test1.asp,test2.asp,test3.asp拷贝到你的IIS虚拟目录下面.然后通过浏览器浏览(具体的IIS配置等本文略过)

下面介绍里面的方法调用:
getUrl(url)方法
该方法是返回某个网页的内容.参数只有一个.下面看看调用的例子test1.asp:

<%
Dim test,url
Set test = Server.CreateObject("gzNets.echars")
url="http://www.gzNets.com/error.html"
Response.Write test.getUrl(url)
Set test=nothing
%>

上面的例子将返回http://www.gzNets.com/error.html的页面内容

manage方法
manage方法有三种方式,在调用manage方法之前要先对一系列的参数进行传值.

方式一
功能:返回标志1与标志2之间的内容,并且包括标志1与标志2本身.
例如,返回<table与</table>之间的内容,并且包括了标志<table和</table>

参数:

inputStr 传入被截取的字符串(该字符串可以用刚才的getUrl()方法返回的网页内容)

inputTag1 传入标志1
inputTag2 传入标志2
inputType 传入方式0
outPutStr 输出最后截取到的字符串

例子test2.asp:
<%
Dim test,str
Set test = Server.CreateObject("gzNets.echars")
str="这是测试的<table border=1><tr><td>test</td></tr></table>测试"
test.inputStr=str
test.inputTag1="<table"
test.inputTag2="</table>"
test.inputType=0
test.manage
Response.Write test.outPutStr &"<br>"
test.inputStr=str
test.inputTag1="<td"
test.inputTag2="</td>"
test.inputType=0
test.manage
Response.Write test.outPutStr &"<br>"
Set test=nothing
%>

方式二
功能:返回标志1与标志2之间的内容,但不包括标志1与标志2本身.
例如,返回<table与</table>之间的内容,但不包括了标志<table和</table>

参数:

inputStr 传入被截取的字符串(该字符串可以用刚才的getUrl()方法返回的网页内容)
inputTag1 传入标志1
inputTag2 传入标志2
inputType 传入方式1(注意这里的传入方式必须改成1)
outPutStr 输出最后截取到的字符串

例子可以自己修改一下test2.asp,把里面的inputType改成1看看效果~~~:

方式三
功能:要理解这个功能比较困难.我们通过一些例子来说明吧.
例如,字符串str="这是测试的<table border=1><tr><td>test</td></tr></table>测试",我们可以通过查找"<tr>",因为"<tr>"只有一个(当然其它也有唯一的标志),然后再查找"<tr>"前面的"<".然后设置尾部标志.我们可以通过查找"</tr>",然后查找"</tr>"后面的">".这样首位置和尾位置都确定了.

参数:

inputStr 传入被截取的字符串(该字符串可以用刚才的getUrl()方法返回的网页内容)
inputTag1 传入标志1 例如上面说的"<tr>"
inputPos1 传入向右搜索,还是向左搜索.有两个值:+表示向右 -表示向左
inputTag1Tag 传向标志1的参考标志.就是要向右向左搜索的标志.例如上面说的"<"
inputNum1 传入搜索标志1的右或左边的第几个inputTag1Tag
inputTag2 传入标志2 例如上面说的"</tr>"
inputPos2 传入向右搜索,还是向左搜索.有两个值:+表示向右 -表示向左
inputTag2Tag 传向标志1的参考标志.就是要向右向左搜索的标志.例如上面说的">"
inputNum2 传入搜索标志2的右或左边的第几个inputTag2Tag
inputType 传入方式2(注意这里的传入方式必须改成21)
outPutStr 输出最后截取到的字符串

例子test3.asp:
目的:我们将取出蓝色理想(www.blueidea.com)首页底部的"关于站点 | 广告服务 | 联系站长 | 版权隐私 | 友情链接 | 投稿热线 | 网站地图"内容
<%
Dim test,url
Set test = Server.CreateObject("gzNets.echars")
url="http://www.blueidea.com/index.asp"
test.inputStr=test.getUrl(url)
test.inputTag1="关于站点"
test.inputNum1=1'表示是只有一个
test.inputPos1="-"'表示是向左搜索
test.inputTag1Tag="<table"'标志1的参考标志
test.inputTag2="版权所有"
test.inputNum2=1
test.inputPos2="+"'表示向前
test.inputTag2Tag="</table>"
test.inputType=2
test.manage
Response.Write test.outPutStr
Set test=nothing
%>

时间: 2024-10-30 21:59:24

网页内容截取组件的相关文章

零基础写python爬虫之使用urllib2组件抓取网页内容_python

版本号:Python2.7.5,Python3改动较大,各位另寻教程. 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地.  类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在Python中,我们使用urllib2这个组件来抓取网页. urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件. 它以urlopen函数的形式提供了一个非常简单的接口. 最简

如何使用FSO组件截取多个变量并保存为TXT文件

问题描述 程序为ASP语言,如我需要截取某个页面中的username,和userpass,并保存为1.txt,且如有多个输入,就保存多行,格式为username1userpass1username2userpass2username3userpass3...................代码怎么写,请赐教 解决方案 解决方案二:参考:<%Setfso=Server.CreateObject("Scripting.FileSystemObject")txt=server.mapp

asp+XMLHTTP组件做采集常用函数收集

asp+|xml|采集|函数 asp+XMLHTTP组件做采集常用函数其中的html代码处理函数很管用,写得相当漂亮 <%'=================================================='函数名:GetHttpPage'作 用:获取网页源码'参 数:HttpUrl ------网页地址'==================================================Function GetHttpPage(HttpUrl)If IsNul

xmlhttp组件获取远程文件并筛选出目标数据

xml|数据 getfile.asp<%''利用xmlhttp组件获取远程文件保存到当前空间''此是网站建设中的一个实例,远程获取一个网页内容并筛选出相关的天气数据,当然可以跳过文件本地存储再获取数据''参考了xoyu的函数,在此感谢fileurl="http://www.hbqx.gov.cn/other/tqyb/inc_city_hb.asp"dotloc=InStrRev(fileurl,".")filepath="thistest"

AspUpload上传组件中文说明文档 函数说明

AspUpload 是一种 ASP 扩展,它允许远程用户通过 HTML 表单上载文件. 它的一个示例脚本允许用户上载文件到 WEB 服务器的 UploadManager 属性 ============================================= CodePage As Long (Read/Write) 可以把表单的文本项目名和文件名的字符从指定的CodePage转换为Unicode,比如表单是按UTF-8提交的,那么这个属性应该设置为65001.其他的如1251 (Cyr

用VB6做一个简单的文件上传组件(一)

最近在单位做的一个项目里需要有文件上传的功能正好手头一本书的附赠光盘里有一个上传组件心中大喜.可惜随之便发现这是一个试用版不给钱就只能用50次太小气了好在头头催得不紧时间充裕干脆自己试着做一个既可长经验值又能长成就感不试白不试以下介绍的便是俺折腾了两天半捣鼓出来的一个只能说是雏形的玩意区区三十行代码大侠们不要笑俺哦这只是写给与俺一样好奇心强但经验值低的弟兄们看的.    文件上载所需的第一步当然是进入一个有"file"表单元素的页面具体就不说了大家都知道.但是若想做一个能够接受该文件并

Eclipse Forms设计漂亮UI之高级组件

高级|设计 Eclipse Forms提供了4个高级组件,这样你能够构建漂亮的UI:expandable composite,section,image hyperlink和form text.让我们依次仔细看看它们每一个. Expandable composite 在网页中有个普遍的功能就是让你有能力把一部分网页内容用一个按钮来伸缩它,Eclipse Forms提供了这样一个组件:ExpandableComposite. ExpandableComposite ec = toolkit.cre

支持中文的无组件文件上传

上传|无组件|中文 作者:woozhj文件名:upload.inc说明:支持中文的无组件文件上传ASP函数,由于ASP不支持二进制写入文件,所以存成文件时必须使用组件,本函数只提供截取上传文件的数据,可以写入到数据库. <SCRIPT RUNAT=SERVER LANGUAGE=VBSCRIPT>Function GetUpload(FormData)    Dim DataStart,DivStr,DivLen,DataSize,FormFieldData    '分隔标志串(+CRLF) 

使用网页代码“截取”功能,打印页面某段定义区域内容

打印|网页|页面 以前用户在打印网页内容时,一般直接选择IE的打印功能就行.有的WEB页面上也有"打印此文档"的链接功能,引用的也是"window.print();",类似于手工打印页面. 一般我们用到网页的打印,都仅对页面上的主要内容感兴趣,一些相关的广告图片.无用的文字信息等都可以排除.如果需要实现这样的效果,则使用上面的方法肯定是不可取的.上次我在写域名查询的时候,使用了XML,同时处理查询反馈信息是进行截取的方法,即仅对有用处的信息进行读取.其实网上那些所谓