java抓取https网页问题

问题描述

java抓取https网页问题
public static void getDocument() throws Exception{

    Map<String,String> headMap=new HashMap<String,String>();
    headMap.put("Accept","text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
    headMap.put("Referer","https://www.vc.cn/");
    headMap.put("Cookie", "Hm_lvt_a857c86b2e41abb55f29bf3e06d43818=1432969970,1432977344; _oauth-client-demo_session=BAh7B0kiD3Nlc3Npb25faWQGOgZFRkkiJTIzNDNlNzhjNWVlYzNiMzhiNzBjODg1MzQzYTk1N2Y5BjsAVEkiEF9jc3JmX3Rva2VuBjsARkkiMUkyRjNEQmFNZ2t4MjNzNGYydjVpa0swS1pMVWM1T21YeGUwM0M1VE9qMlk9BjsARg%3D%3D--2135b5dbf22455ae1c7e31d75e41dc49e77e8539; Hm_lpvt_a857c86b2e41abb55f29bf3e06d43818=1432977344");
    headMap.put("User-Agent",
            "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.146 BIDUBrowser/6.x Safari/537.36");

// headMap.put("Host", "www.vc.cn");
// headMap.put("User-Agent", "Mozilla/5.0 (Windows NT 6.1; rv:38.0) Gecko/20100101 Firefox/38.0");
// headMap.put("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
// headMap.put("Accept-Language","zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3");
// headMap.put("Cookie","Hm_lvt_a857c86b2e41abb55f29bf3e06d43818=1432969970,1432977344");
// headMap.put("Connection","keep-alive");
String str=HttpsUtil.doGet("https://www.vc.cn/users/5227/startups/5358", "", headMap, "gbk", 5000, 5000);
if(str!=null){
Document doc=Jsoup.parse(str);
System.out.println(doc);
}
}

目前我模拟了 百度浏览器的请求消息头(会返回404页面),注释掉的我是我模拟的火狐浏览器请求消息头(也会返回404) 这是为什么呢????????求指教啊,我到底漏了什么呢?(我如果请求首页https://www.vc.cn/是可以取到的,这两个页面用浏览器不需要跳转,可以直接访问,求解答,快爆炸了)

解决方案

总之这种问题,都不必提问,自己用fiddler对比下浏览器和你的程序的差异,就能解决了。

解决方案二:

直接对比一下你程序发送的,跟浏览器发送的消息头,看一下数据的差别

解决方案三:

fiddler对比下浏览器发送的消息头,原谅我得废话,,,

时间: 2025-01-30 03:43:25

java抓取https网页问题的相关文章

java爬虫-请求一个url,用java抓取所有网页链接以及内容。

问题描述 请求一个url,用java抓取所有网页链接以及内容. 比如用这个当实例:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml.(新手,望多多关照) 解决方案 通过java.net.URL类抓取某个网页的内容java-抓取指定URL网页的内容 解决方案二: http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml这个网址下面有好几个子链接网页,有好几页,要求全部抓到.. 解

html-如何用java抓取网页隐藏音频链接

问题描述 如何用java抓取网页隐藏音频链接 我想用java抓取荔枝FM网站上所有的音频文件,但是直接查看网页源码发现找不到页面的音频链接http://www.lizhi.fm/#/25734/20075765977745926,但是我用谷歌的Developer Tools能找到这个链接http://cdn.lizhi.fm/audio/2015/05/16/20075765977745926_hd.mp3,我有点不知道怎么搞了,求帮忙看看什么情况 解决方案 搜索这个页面的data-url 解决

java抓取网页上天气预报的温度

问题描述 java抓取网页上天气预报的温度 我需要从一个网站上获取天气预报的温度值,我选择了新浪网 程序如下 package tianqi; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import java.io.IOException; impo

详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片_java

利用Java抓取网页上的所有图片: 用两个正则表达式: 1.匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2.匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+) 实现: package org.swinglife.main; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream;

java抓取网页数据数据问题

问题描述 java抓取网页数据数据问题 !红线的位置有错误图片说明 解决方案 写的没见过--给你我常写的把. HttpClientBuilder httpClientBuilder = HttpClientBuilder.create(); CloseableHttpClient closeableHttpClient = httpClientBuilder.build(); HttpGet httpGet = new HttpGet(url); 解决方案二: org.apache.http.i

JAVA抓取网页的图片

import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.net.URL; import java.net.URLConnection; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; /

网络爬虫-Jsoup 如何抓取GOOGLE网页数据

问题描述 Jsoup 如何抓取GOOGLE网页数据 网络爬虫新手,以前学过JAVA,所以想用JAVA来做一些数据抓取工作 在网上找的 Jsoup的JAR,试了一下感觉比较容易上手,所以想抓取GOOGLE数据 代码也是网上找的, 但是出现 timeOut,我觉得可能是GOOGLE被屏蔽的问题,我使用Ishadowsock翻墙平时,但是打开以后运货还是timeOut. 不知道各位大神能不能支支招,另外想问一下GOOGLE数据抓取有没有更好一些的开源工具,谢谢万分! Set result = new

PHP抓取HTTPS内容和错误处理的方法_javascript技巧

问题 在研究Hacker News API的时候遇到一个HTTPS问题.因为所有的Hacker News API都是通过加密的HTTPS协议访问的,跟普通的HTTP协议不同,当使用PHP里的函数 file_get_contents() 来获取API里提供的数据时,出现错误 使用的代码是这样的: <?php $data = file_get_contents("/http://blog.it985.com/"); ?> 当运行上面的代码是遇到下面的错误提示: PHP Warn

使用java 抓取微信公共账号信息

问题描述 如何使用java抓取微信公共账号信息,有哪位大神能提供思路,要是有源码就更好了,有谁实现了么如何使用java抓取微信公共账号信息,有哪位大神能提供思路,要是有源码就更好了,有谁实现了么 解决方案 解决方案二:网络搜搜应该还是有解决方案的吧.