JSP抓取网页代码的程序

js|程序|网页

<%@ page contentType="text/html;charset=gb2312"%>
<%

String sCurrentLine;

String sTotalString;

sCurrentLine="";

sTotalString="";

java.io.InputStream l_urlStream;

java.net.URL l_url = new java.net.URL("http://www.163.net/");

java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();

l_connection.connect();

l_urlStream = l_connection.getInputStream();

java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));

while ((sCurrentLine = l_reader.readLine()) != null)

{

sTotalString+=sCurrentLine;

}

out.println(sTotalString);

后记

　　虽然代码比较简单，但是，我认为根据这个，可以实现“网络爬虫”的功能，比如从页面找href连接，然后再得到那个连接，然后再“抓”，不停止地（当然可以限定层数），这样，可以实现“网页搜索”功能。

时间： 2024-10-27 17:59:08

JSP抓取网页代码的程序的相关文章

JSP抓取网页代码的程序_JSP编程

<%@ page contentType="text/html;charset=gb2312"%><% String sCurrentLine; String sTotalString; sCurrentLine=""; sTotalString=""; java.io.InputStream l_urlStream; java.net.URL l_url = new java.net.URL("

Python urllib、urllib2、httplib抓取网页代码实例

这篇文章主要介绍了Python urllib.urllib2.httplib抓取网页代码实例,本文直接给出demo代码,代码中包含详细注释,需要的朋友可以参考下使用urllib2,太强大了试了下用代理登陆拉取cookie,跳转抓图片...... 文档:http://docs.python.org/library/urllib2.html 直接上demo代码了包括:直接拉取,使用Reuqest(post/get),使用代理,cookie,跳转处理 ? 1 2 3 4 5 6 7 8 9

PHP实现抓取网页的所有超链接的代码

因为最近要做一个类似专业搜索引擎的东西,需要抓取网页的所有超链接.大家帮忙测试一下子,下面的代码是否可以针对所有的标准超链接. 通用HTML标准超链接参数取得正则表达式测试因为最近要做一个类似专业搜索引擎的东西,需要抓取网页的所有超链接. 大家帮忙测试一下子,下面的代码是否可以针对所有的标准超链接. 测试代码如下: <?php // -------------------------------------------------------------------------- //

PHP的cURL库功能简介：抓取网页，POST数据及其他

使用PHP的cURL库可以简单和有效地去抓网页.你只需要运行一个脚本,然后分析一下你所抓取的网页,然后就可以以程序的方式得到你想要的数据了.无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,cURL 是一个功能强大的PHP库.本文主要讲述如果使用这个PHP库. 启用 cURL 设置首先,我们得先要确定我们的PHP是否开启了这个库,你可以通过使用php_info()函数来得到这一信息. ﹤?php phpinfo(); ?﹥ 如果你可以在网

JSP“抓”网页代码的程序

js|程序|网页 JSP"抓"网页代码的程序如下: <%@ page contentType="text/html;charset=gb2312"%> <% String sCurrentLine; String sTotalString; sCurrentLine=""; sTotalString=""; java.io.InputStream l_urlStream; java.net.URL l_url

用Python程序抓取网页的HTML信息的一个小实例

这篇文章主要介绍了用Python程序抓取网页的HTML信息的一个小实例,用到的方法同时也是用Python编写爬虫的基础,需要的朋友可以参考下抓取网页数据的思路有好多种,一般有:直接代码请求http.模拟浏览器请求数据(通常需要登录验证).控制浏览器实现数据抓取等.这篇不考虑复杂情况,放一个读取简单网页数据的小例子: 目标数据将ittf网站上这个页面上所有这些选手的超链接保存下来. 数据请求真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定: ? 1 d

麻烦大家给你网络抓取程序需要被抓取网页的标题内容来源存入数据库

问题描述麻烦大家给你网络抓取程序需要被抓取网页的标题内容来源存入SQL2000数据库解决方案解决方案二:在网上搜网络爬虫或者网络机器人,解析网页的内容用apache的HttpClient解决方案三:htmlParse

网页抓取-抓取网页相关的应用程序

问题描述抓取网页相关的应用程序我需要抓取海词典典网站上所有四级词汇在"词汇搭配"那一栏的内容,谁能帮我做个解决这个问题的软件,我的QQ邮箱是1036418603@qq.com

PHP多线程抓取网页实现代码_php技巧

受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址.既然 Curl Multi Function如此强大,能否用 Curl Multi Functions 来写并发多线程下载文件呢,当然可以,下面给出我的代码: 代码1:将获得的代码直接写入某个文件复制代码代码如下: <?php $urls = array( 'http://www.sina.com.cn/', 'http://w