java-如何爬取 某些网页,返回一些奇怪的东西?

问题描述

如何爬取 某些网页,返回一些奇怪的东西?
连接都是我使用fidder 抓包手机App得到的,可是我明明看到的是 刷新出的是页面,可是连接 却返回这么个东西,没有jison什么的

这是个什么玩意,怎么搞?

1.

http://data.howbuy.com/hws/news/listbytype.protobuf?newestVer=0&pageCount=25&currentPage=1&basicType=&newsType=129013&channelId=102401532&token=7504457408dabb842645746b07a906a8&coopId=A20131205&actionId=HD0001&parPhoneModel=android&subPhoneModel=MI+3&iVer=4.2.2&deviceId=7FED7E7CDEB099D78294E284A0225245&corpId=000004&productId=28294488&version=4.2.2

可以 看到连接的路径 说的都是 新闻的列表 ,可是 返回个 文件。。。

2.

http://quotes.66zhang.com:8888/query?q=inst&s=sha-600313&t=all&f=pb&uid=8163617&channel=xiaomi&app_version=30.16&d_model=MI%203&d_version=4.4.4

这个好歹有数值,虽然不知道乱码 是怎么回事?

3.
http://apiv2.66zhang.com/content/hold?stock=sha-600313&offset=0&view_cnt=20&uid=8163617&channel=xiaomi&app_version=30.16&d_model=MI%203&d_version=4.4.4

刷新页面 看到的是 用户操作列表,可以实际 返回确实 一串 什么码,这个怎么抓?

解决方案

第1个 是个app,叫掌上基金

第2.3个是个app,叫 股票雷达

解决方案二:
看下是不是第一次返回了301/302跳转,那么你需要带上cookie带上referer,继续访问跳转后的网页。

解决方案三:
有些乱码等是可能数据编码了,或加密了。
有些数据是自定义数据,app自己知道怎么解析处理。

解决方案四:
乱码是编码问题,你应该先确定采用的什么编码,gbk还是utf8,或者utf16等等
app可能加密数据再发送,因此你抓到的是密文,这种情况下应逆向app

解决方案五:
数据是加密了的,没有解密的方法你无法知道其含义。
或者可以用常用的解密的方法试试看

时间: 2024-10-28 04:17:37

java-如何爬取 某些网页,返回一些奇怪的东西?的相关文章

php 如何实现定时爬取 一个网页的新闻的时间

问题描述 php 如何实现定时爬取 一个网页的新闻的时间 现在项目要求是每天凌晨去爬取一个网页的内容 求大神支招 最好有代码简述 谢谢了 解决方案 url1url2

求助,python 解析爬取的网页源码中的json部分

问题描述 求助,python 解析爬取的网页源码中的json部分 爬下来的网页源码有一部分是这样的 : 中间那一部分是json吧?要怎么才能解析成像浏览器那样的好继续抓取所要的信息? 说部分是因为有另外一些是正常的html,就中间这一部分想要的信息就这样两行超级长的延伸...也使用过json.load()来解析,不想显示错误"没有可以解析的json对象". 这两行中还有一部分"}u0026nicku003d${nick}u0026rnu003d${rn}u0026stats.

怎么用java代码爬取网页中视频的源地址,不要用嗅探工具!!求高手帮助啊 !!!

问题描述 现在在做一个多媒体管理系统,需要像百度一样抓取一些网站的视频的真实连接,但是想优酷.土豆或者各大视频网站的视频的链接都是经过js加密的,求高手怎么才能获得视频的真实地址啊!!不要用字符串拼接,那个只要算法一变就不行了!!!求各位高手指导指导!!! 解决方案 解决方案二:网络抓包,分析底层协议?解决方案三:eval 解决方案四:解决没有大神,如果解决了,给个实例,邮箱:2087224217@qq.com.谢谢了解决方案五:楼主你好请问这个问题后来是怎么解决的,我最近在做着一个音乐播放器,

java实现爬取知乎用户基本信息_java

本文实例为大家分享了一个基于JAVA的知乎爬虫,抓取知乎用户基本信息,基于HttpClient 4.5,供大家参考,具体内容如下详细内容:抓取90W+用户信息(基本上活跃的用户都在里面)大致思路:1.首先模拟登录知乎,登录成功后将Cookie序列化到磁盘,不用以后每次都登录(如果不模拟登录,可以直接从浏览器塞入Cookie也是可以的). 2.创建两个线程池和一个Storage.一个抓取网页线程池,负责执行request请求,并返回网页内容,存到Storage中.另一个是解析网页线程池,负责从St

不利于蜘蛛爬取的网页-蜘蛛陷阱

大家好,我是第一次在这上面发表文章,如有不好地方请高手多多指教. 1.搜索引擎能不能找到网页. 1要让搜搜引擎发现网站首页,就必须有良好的外部链接链接到首页,就找到了首页,然后蜘蛛会沿着链接爬的更深. 让蜘蛛通过简单的html页面的链接到达,javascript链接,flash链接都是蜘蛛的陷阱.这点要注意. 2找到网页后能不能抓去内容. 被发现的蜘蛛是可以被爬取的,数据库动态生成,带过很多的参数url.sessionID.整个页面都是flash.框架结构.大量的转向,和大量的复制内容都可能把蜘

浅谈Python爬取网页的编码处理_python

背景 中秋的时候一个朋友给我发了一封邮件说他在爬链家的时候发现网页返回的代码都是乱码让我帮他参谋参谋(中秋加班真是敬业= =)其实这个问题我很早就遇到过之前在爬小说的时候稍微看了一下不过没当回事其实这个问题就是对编码的理解不到位导致的. 问题 很普通的一个爬虫代码代码是这样的 # ecoding=utf-8 import re import requests import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://j

Java通过UrlConnection和Httpclient实现爬取并保存至本地实例

下面是我简单实现爬取指定网页,并且保存的简单实现,其实有几种方式可以实现,这里慢慢添加该功能的几种实现方式. UrlConnection爬取实现 package html; import java.io.BufferedReader; import java.io.FileOutputStream; import java.io.FileWriter; import java.io.IOException; import java.io.InputStream; import java.io.I

scrapy自动多网页爬取CrawlSpider类(五)

一.目的. 自动多网页爬取,这里引出CrawlSpider类,使用更简单方式实现自动爬取. 二.热身. 1.CrawlSpider (1)概念与作用: 它是Spider的派生类,首先在说下Spider,它是所有爬虫的基类,对于它的设计原则是只爬取start_url列表中的网页,而从爬取的网页中获取link并继续爬取的工作CrawlSpider类更适合. (2)使用: 它与Spider类的最大不同是多了一个rules参数,其作用是定义提取动作.在rules中包含一个或多个Rule对象,Rule类与

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

来源:http://www.cnblogs.com/wanghzh/p/5824181.html 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感.   Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地