关于数据抓取时网页编码各不相同的问题

问题描述

关于数据抓取时网页编码各不相同的问题

最近在学习数据抓取的一些技能,抓取指定数据,网页编码都是不一样的,
有没有方法写个公用的类或者对象来处理,求代码

解决方案

 python 判断网页编码的方法:

import urllib
f = urllib.urlopen('http://outofmemory.cn/').info()

print f.getparam('charset')
2 import chardet 你需要安装一下chardet第3方模块判断编码

data = urllib.urlopen('http://outofmemory.cn/').read()

print chardet.detect(data)
希望对你有帮助!

解决方案二:

获取网页编码,然后再根据自己需要处理

解决方案三:

一一般规范的页面都会描述自己的编码格式,你要做的就是统一处理解析这些编码格式。

时间: 2024-10-21 13:15:24

关于数据抓取时网页编码各不相同的问题的相关文章

页面数据抓取-关于网页表格抓取问题,用什么软件

问题描述 关于网页表格抓取问题,用什么软件 我要抓取的是一个系统内部网页,不能外部访问,数据表格的链接插入有插件.怎么能实现动态抓取??大神啊 解决方案 用抓包的方法最好,然后再分析数据,如果不行,可以考虑用webbrowse这个控件,里面的内容也比较好抓取

《用Python写网络爬虫》——第2章 数据抓取 2.1 分析网页

第2章 数据抓取 在上一章中,我们构建了一个爬虫,可以通过跟踪链接的方式下载我们所需的网页.虽然这个例子很有意思,却不够实用,因为爬虫在下载网页之后又将结果丢弃掉了.现在,我们需要让这个爬虫从每个网页中抽取一些数据,然后实现某些事情,这种做法也被称为抓取(scraping). 首先,我们会介绍一个叫做Firebug Lite的浏览器扩展,用于检查网页内容,如果你有一些网络开发背景的话,可能已经对该扩展十分熟悉了.然后,我们会介绍三种抽取网页数据的方法,分别是正则表达式.Beautiful Sou

网络爬虫-Jsoup 如何抓取GOOGLE网页数据

问题描述 Jsoup 如何抓取GOOGLE网页数据 网络爬虫新手,以前学过JAVA,所以想用JAVA来做一些数据抓取工作 在网上找的 Jsoup的JAR,试了一下感觉比较容易上手,所以想抓取GOOGLE数据 代码也是网上找的, 但是出现 timeOut,我觉得可能是GOOGLE被屏蔽的问题,我使用Ishadowsock翻墙平时,但是打开以后运货还是timeOut. 不知道各位大神能不能支支招,另外想问一下GOOGLE数据抓取有没有更好一些的开源工具,谢谢万分! Set result = new

请问数据抓取系统(spider)搜集网页信息是从一些种子URL开始,那么这些种子URL怎样获取的?

问题描述 请问数据抓取系统(spider)搜集网页信息是从一些种子URL开始,那么这些种子URL怎样获取的? 在很多的SEO教程中谈到,数据抓取系统(spider)会从一些种子URL开始进行搜索网页, 那么这些种子URL从哪里可以获取? 解决方案 这个种子应该是自己设定的.之后爬虫根据这个种子url爬其他资源

玩玩小爬虫——抓取时的几个小细节

      这一篇我们聊聊在页面抓取时应该注意到的几个问题. 一:网页更新      我们知道,一般网页中的信息是不断翻新的,这也要求我们定期的去抓这些新信息,但是这个"定期"该怎么理解,也就是多长时间需要 抓一次该页面,其实这个定期也就是页面缓存时间,在页面的缓存时间内我们再次抓取该网页是没有必要的,反而给人家服务器造成压力. 就比如说我要抓取博客园首页,首先清空页面缓存, 从Last-Modified到Expires,我们可以看到,博客园的缓存时间是2分钟,而且我还能看到当前的服务

再浅谈百度抓取时出现的200 0 64现象

只有经历过网站关键词搜索排名跌宕起伏的站长才能真正明白,等待不是一种方式,结果需要努力和勤劳来弥补.笔者经历了网站改版到降权,关键词一无所有到关键词排名起色的过程,这个过程让人难熬和艰辛,如果有一天每一位站长都经历过这样的历程,我想百度会比现在弱小很多. 笔者的站在近3个月前进行一次改版,改版的目的就是为了URL标准和简单,同时也做了网站网页布局的修改,从改版后开始网站关键词一无所有,等待我的只有坚持内容更新和外链发布,直至上周网站频道关键词和长尾关键词开始进入百名,从网站改版到目前有所成就的过

一淘网的数据抓取和插件屏蔽涉及的法律问题

今天探讨B2C购物网站京东商城和阿里巴巴集团旗下的比价网站一淘网的数据抓取和插件屏蔽涉及的法律问题.说明下,笔者和两网站均无业务关系和联系.先介绍背景: 2011年11月,京东商城采取技术措施,屏蔽一淘网搜索引擎,一淘网随后在微博表示不再直接抓取京东商城的价格数据,但近期又在京东商城与苏宁的价格战中实时公布京东商城和其他购物网站商品价格比较.近日,京东商城又在其网站屏蔽了一淘网的浏览器插件,该插件向用户实时提供包括京东商城在内的各大购物网站同款商品价格,一淘网方面表示京东商城是在破坏其软件运行.

百万级别知乎用户数据抓取与分析之PHP开发_php实例

这次抓取了110万的用户数据,数据分析结果如下: 开发前的准备 安装Linux系统(Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu: 安装PHP5.6或以上版本: 安装curl.pcntl扩展. 使用PHP的curl扩展抓取页面数据 PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库. 本程序是抓取知乎的用户数据,要能访问用户个人页面,需要用户登录后的才能访问.当我们在浏览器的页面中点击一个用户头像链接进入用户个人中心页面的时候,之所以

07-爬虫的多线程调度 | 01.数据抓取 | Python

07-爬虫的多线程调度 郑昀 201005 隶属于<01.数据抓取>小节 一般让爬虫在一个进程内多线程并发,有几种方法: Stackless :Stackless Python是Python的一个增强版本.Stackless Python修改了Python的代码,提供了对微线程的支持.微线程是轻量级的线程,与前边所讲的线程相比,微线程在多个线程间切换所需的时间更多,占用资源也更少. Twisted :主要利用 Twisted 中的异步编程能力.如 addCallback , callLater