java 抓取网页内容实现代码_java

复制代码 代码如下:

package test;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.Authenticator;

import java.net.HttpURLConnection;

import java.net.PasswordAuthentication;

import java.net.URL;

import java.net.URLConnection;

import java.util.Properties;

 

public class URLTest {

 // 一个public方法,返回字符串,错误则返回"error open url"

 public static String getContent(String strUrl) {

  try {

   URL url = new URL(strUrl);

   BufferedReader br = new BufferedReader(new InputStreamReader(url

     .openStream()));

   String s = "";

   StringBuffer sb = new StringBuffer("");

   while ((s = br.readLine()) != null) {

    sb.append(s + "/r/n");

   }

   br.close();

   return sb.toString();

  } catch (Exception e) {

   return "error open url:" + strUrl;

  }

 }

 

 public static void initProxy(String host, int port, final String username,

   final String password) {

  Authenticator.setDefault(new Authenticator() {

   protected PasswordAuthentication getPasswordAuthentication() {

    return new PasswordAuthentication(username,

      new String(password).toCharArray());

   }

  });

  System.setProperty("http.proxyType", "4");

  System.setProperty("http.proxyPort", Integer.toString(port));

  System.setProperty("http.proxyHost", host);

  System.setProperty("http.proxySet", "true");

 }

 

 public static void main(String[] args) throws IOException {

   String url = "http://www.jb51.net";

   String proxy = "http://192.168.22.81";

   int port = 80;

   String username = "username";

   String password = "password";

   String curLine = "";

   String content = "";

   URL server = new URL(url);

   initProxy(proxy, port, username, password);

   HttpURLConnection connection = (HttpURLConnection) server

   .openConnection();

   connection.connect();

   InputStream is = connection.getInputStream();

   BufferedReader reader = new BufferedReader(new

   InputStreamReader(is));

   while ((curLine = reader.readLine()) != null) {

   content = content + curLine+ "/r/n";

   }

   System.out.println("content= " + content);

   is.close();

   System.out.println(getContent(url));

 }

}       

时间: 2024-10-13 18:40:06

java 抓取网页内容实现代码_java的相关文章

asp中利用xmlhttp抓取网页内容的代码_应用技巧

需要分件html源代码 此例中的被抓取的html源代码如下 <p align=left>2004年8月24日星期二:白天:晴有时多云南风3-4级:夜间:晴南风3-4级:气温:最高29℃最低19℃ </p> 而程序中是从 以2004年8月24日为关键字搜索,直到</p>结速 而抓取的内容就变成了"2004年8月24日星期二:白天:晴有时多云南风3-4级:夜间:晴南风3-4级:气温:最高29℃最低19℃ " 干干净净的了.记录一下. 复制代码 代码如下:

ASP.NET抓取网页内容

原文:ASP.NET抓取网页内容 一.ASP.NET 使用HttpWebRequest抓取网页内容   这种方式抓取某些页面会失败 不过,有时候我们会发现,这个程序在抓取某些页面时,是获不到所需的内容的,有时候甚至返回404的错误提示页,这是什么原因呢? 其实,很多人都忽略了一个问题,那就是服务器默认的浏览器问题.有的服务器默认的浏览器是手机浏览器,那么,当我抓取这个服务器下的网页是,就相当于用手机浏览器来打开网页,而如果要抓取的目标网页没有相应的手机网页的话,就会返回意想不到的结果,有的返回4

ASP.NET抓取网页内容的实现方法_实用技巧

本文实例讲述了ASP.NET抓取网页内容的实现方法.分享给大家供大家参考.具体实现方法如下: 一.ASP.NET 使用HttpWebRequest抓取网页内容 复制代码 代码如下: /// <summary>方法一:比较推荐  /// 用HttpWebRequest取得网页源码  /// 对于带BOM的网页很有效,不管是什么编码都能正确识别  /// </summary>  /// <param name="url">网页地址" </

java简单网页抓取的实现方法_java

本文实例讲述了java简单网页抓取的实现方法.分享给大家供大家参考.具体分析如下: 背景介绍 一 tcp简介 1 tcp 实现网络中点对点的传输 2 传输是通过ports和sockets ports提供了不同类型的传输(例如 http的port是80) 1)sockets可以绑定在特定端口上,并且提供传输功能 2)一个port可以连接多个socket 二 URL简介 URL 是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址. 互联网上的每个文件都有一个唯一的

java抓取鼠标事件和鼠标滚轮事件示例_java

java抓取鼠标事件和滚轮事件 复制代码 代码如下: package demo; import java.awt.event.MouseEvent;import java.awt.event.MouseListener;import java.awt.event.MouseWheelEvent;import java.awt.event.MouseWheelListener; import javax.swing.JButton;import javax.swing.JFrame;import

详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片_java

利用Java抓取网页上的所有图片: 用两个正则表达式: 1.匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2.匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+) 实现: package org.swinglife.main; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream;

PHP 用QueryList抓取网页内容

原文:PHP 用QueryList抓取网页内容 之前抓取网页数据都是用Java Jsoup,前几天听说用PHP抓更方便,今天就研究了一下,主要是用QueryList来实现. QueryList是一个基于phpQuery的通用列表采集类,是一个简单. 灵活.强大的采集工具,采集任何复杂的页面 基本上就一句话就能搞定了.   直接拿博客园举例子了,http://www.cnblogs.com/ 我们用QueryList来抓取红框里面的内容     查看网页源代码找到红框的位置 1 <div id=&qu

ASP.NET抓取网页内容的实现方法

 这篇文章主要介绍了ASP.NET抓取网页内容的实现方法,涉及使用HttpWebRequest及WebResponse抓取网页内容的技巧,需要的朋友可以参考下     本文实例讲述了ASP.NET抓取网页内容的实现方法.分享给大家供大家参考.具体实现方法如下: 一.ASP.NET 使用HttpWebRequest抓取网页内容 代码如下: /// <summary>方法一:比较推荐 /// 用HttpWebRequest取得网页源码 /// 对于带BOM的网页很有效,不管是什么编码都能正确识别

java 抓取cd音轨 open resource

问题描述 在谷歌上查遍了.找到一些C++写的CDex,还有一个Java写的jripper但是不支持windows系求高手指点..Windows上java抓取cd音轨(转成mp3格式)的开源工具谢谢 解决方案 解决方案二:该回复于2011-04-25 16:02:52被版主删除解决方案三:没人回复唉解决方案四:刚看了好多人问了这样的问题,,无解啊解决方案五:jripper可以运行在window系统中解决方案六:jripper的代码我改了些可以显示cd信息抓取音轨还要努力解决方案七:jripper是