Beautiful Soup 抓取网页的问题

问题描述

我用 beautifulsoup抓取一个一些网页的时候出现urllib2.urlopen(URL)不能取到其代码，比如 www.163.com/ www.sina.com这些网站我抓他首页title都不能让我抓，但是抓其他网页像 www.google.com www.baidu.com这些都没问题是不是 www.163.com/ www.sina.com这些网页本身加了什么限制就不能用urllib2.urlopen 来获取网页了？如果是，怎么冲破他的限制呢自由抓取呢代码很简单：import urllib2from BeautifulSoup import BeautifulSoup,Tagimport reimport osimport statdef analysis(url_str):page=urllib2.urlopen(url_str)soup = BeautifulSoup(page,fromEncoding="gb2312")#print unicode(soup.findAll("table")[4])kk=soup.html.head.titlereturn kkurl_str="http://www.163.com"str_string=analysis(url_str)print str_string

解决方案

lz你的代码我运行结果是乱码，我把fromEncoding="gb2312"改为"gbk"问题就解决了，网易和新浪网页的字符编码都是gbk，gbk包含的字符要比gb2312多点，所以用gb2312抓取gbk的网页可能会产生乱码
解决方案二：
可能跟http request中的User-Agent有关，有的网站只认定几个特定的user-agent.

时间： 2024-12-02 11:25:38

Beautiful Soup 抓取网页的问题的相关文章

用Python程序抓取网页的HTML信息的一个小实例

这篇文章主要介绍了用Python程序抓取网页的HTML信息的一个小实例,用到的方法同时也是用Python编写爬虫的基础,需要的朋友可以参考下抓取网页数据的思路有好多种,一般有:直接代码请求http.模拟浏览器请求数据(通常需要登录验证).控制浏览器实现数据抓取等.这篇不考虑复杂情况,放一个读取简单网页数据的小例子: 目标数据将ittf网站上这个页面上所有这些选手的超链接保存下来. 数据请求真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定: ? 1 d

PHP抓取网页、解析HTML常用的方法总结

这篇文章主要介绍了PHP抓取网页.解析HTML常用的方法总结,本文只是对可以实现这两个需求的方法作了总结,只介绍方法,不介绍如何实现,需要的朋友可以参考下概述爬虫是我们在做程序时经常会遇到的一种功能.PHP有许多开源的爬虫工具,如snoopy,这些开源的爬虫工具,通常能帮我们完成大部分功能,但是在某种情况下,我们需要自己实现一个爬虫,本篇文章对PHP实现爬虫的方式做个总结. PHP实现爬虫主要方法 1.file()函数 2.file_get_contents()函数 3.fopen()-

linux-Linux c socket抓取网页保存到文件一直是乱码

问题描述 Linux c socket抓取网页保存到文件一直是乱码如题,建立连接后发送请求后,保存到文件的代码如下: while(recvSize=recv(sockfdrecvBufBUF_SIZE0)>0){ fwrite(recvBufsizeof(char)strlen(recvBuf)fp); printf(""%s""recvBuf); memset(recvBuf0sizeof(recvBuf)); } 网页可以在终端上正常显示,但是这样保存到

php抓取网页

用php抓取页面的内容在实际的开发当中是非常有用的,如作一个简单的内容采集器,提取网页中的部分内容等等,抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,以下就是几种常用的用php抓取网页中的内容的方法. 1.file_get_contents PHP代码 <?php $url = "http://www.phpzixue.cn"; $contents = file_get_contents($url); //如果出现中文乱码使用下面代码 //$getcontent =

PHP的cURL库功能简介：抓取网页，POST数据及其他

使用PHP的cURL库可以简单和有效地去抓网页.你只需要运行一个脚本,然后分析一下你所抓取的网页,然后就可以以程序的方式得到你想要的数据了.无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,cURL 是一个功能强大的PHP库.本文主要讲述如果使用这个PHP库. 启用 cURL 设置首先,我们得先要确定我们的PHP是否开启了这个库,你可以通过使用php_info()函数来得到这一信息. ﹤?php phpinfo(); ?﹥ 如果你可以在网

.NET2.0抓取网页全部链接

效果图后台代码以下为引用的内容:using System;using System.Data;using System.Configuration;using System.Web;using System.Web.Security;using System.Web.UI;using System.Web.UI.WebControls;using System.Web.UI.WebControls.WebParts;using System.Web.UI.HtmlControls;using

蜘蛛抓取网页过程的四步曲

随着搜索引擎的不断发展与升级,搜索引擎所派出的蜘蛛也变得越来越智能了,所以为了要弄清楚蜘蛛的工作原理,为了更好的优化自己的网站我们就必须不断的去研究蜘蛛.下面,我就和大家简单的聊聊蜘蛛的基本工作原理吧: 蜘蛛工作的第一步:爬行你网站的网页,寻找合适的资源. 蜘蛛它有一个特性,那就是他的运动轨迹通常都是围绕着蜘蛛丝而走的,而我们之所以将搜索引擎的机器人命名为蜘蛛其实就是因为这个特性.当蜘蛛来到你的网站之后,它就会顺着你网站中的链接(蜘蛛丝)不断的进行爬行,因此如何让蜘蛛能够更好的在你的网站中进行爬

PHP实现抓取网页的所有超链接的代码

因为最近要做一个类似专业搜索引擎的东西,需要抓取网页的所有超链接.大家帮忙测试一下子,下面的代码是否可以针对所有的标准超链接. 通用HTML标准超链接参数取得正则表达式测试因为最近要做一个类似专业搜索引擎的东西,需要抓取网页的所有超链接. 大家帮忙测试一下子,下面的代码是否可以针对所有的标准超链接. 测试代码如下: <?php // -------------------------------------------------------------------------- //

ASP.NET实现抓取网页中的链接

asp.net|链接|网页输入一个地址,就可以把那个网页中的链接提取出来,下面这段代码可以轻松实现,主要的是用到了正则表达式. GetUrl.ASPx代码如下: <%@ Page Language="<a href="http://dev.21tx.com/language/vb/" target="_blank">VB</a>" CodeBehind="GetUrl.aspx.vb&

猜你喜欢

精准规划网站优化周期的六大秘诀

无论是刚刚入行的新手站长,还是经验丰富的老站长.都会对网站优化周期的规划感到头疼不已.每一处都得小心翼翼的来做好,生怕自己的客户会流失.而优化这份工作的命运并不是完全掌握在我们自己手中,大部分的时候我 ...

网页设计应用：使用CSS截字

css|设计|网页|网页设计截字是一个很恶心的问题.为了照顾表现上的需要,通常需要把过长的句子,比如一个列表中的新闻标题,截短. 通常这由程序员使用后台技术(各种流行的语言,PHP, JSP等)或者 ...

网站开发编程中的特殊符号处理

PHP语法分析器是用成对的引号来判断一个字符串的.因此,所有字符串必须使用同一种单或者双引号来定义开始和结束.例如,下面的字串定义是不合法的: 1 PHP中单引号与双引号的区别在PHP中,通常 ...

URL欺骗

By Razvan Peteanu (razvan.peteanu@home.com) for SecurityPortal.com Trans By F@tFox (fatfox@yesky.com ...

圆形头像图标运用border属性轻松实现

几乎所有应用的头像和图标除了方的还是方的,但从PATH开始,其出色的UI和交互让众多APP在前端设计上开始独下匠心.PATH中的用户头像图标也开始了使用最美的图形--圆形,一改原来单调的方形. 虽然圆 ...

360极速浏览器7.5取消自动升级的方法

如何取消360极速浏览器7.5版本自动升级? 把 8.1 卸载后, 去 360Chrome Chrome Application 里看看有没有 8.1.x.xxx 的文件夹, 如果还有便把它删除 ...

Win7没有鼠标怎么办？

第一步.在键盘上同时按下"ALT"+"SHIFT"(注意,是左边键盘)+"NumLock",即可快速启动对话框. 第二步.在弹出的&qu ...

ftp的dir或ls命令无法查看文件列表怎么办

网友们可能在使用ftp的dir或ls命令时查看文件列表,但是却无法看到,受到了限制,那么无法查看文件列表这就造成了我们许多的麻烦,那么要怎么的解决这个问题呢!现在我们一起来看看吧! 在Win7系统 ...

怎么利用XMind将图导出成XMind工作簿

1.首先,打开XMind7软件,由于XMind主流图模板是思维导图,这里选择"思维导图",如下图所示: 2.接着,选择思维导图的风格,这里选择了"田园"风格 ...

我们为什么选择Kubernetes

本文讲的是我们为什么选择Kubernetes,[编者的话]这篇文章介绍了作者在选择容器编排工具过程中的一些总结和经验,各个编排工具的特性比较,以及自己团队为什么选择Kubernetes. 几个月前,我 ...

基于分布式SSD云盘集群的Oracle 性能测试报告

1.测试目的阿里云云服务器(Elastic Compute Service,简称 ECS)是一种简单高效.处理能力可弹性伸缩的计算服务,帮助客户快速构建更稳定.安全的应用,提升运维效率,降低 I ...

[置顶]这些.NET开源项目你知道吗？让.NET开源来得更加猛烈些吧

注意:有网友提出部分项目停止更新的事情,这个问题我特意注意过,很多都是小功能组件,功能稳定,没有bug,没更新是正常的.够用就行了.其次技术支持的事情,对开源免费来说,不能太强求,这里发布的都是小功能 ...

全球移动内容产业2016年将达650亿美元

美国http://www.aliyun.com/zixun/aggregation/18224.html">市场研究公司Juniper Research在最新报告中预计,未来3年,全球 ...

畅谈Visual Studio 2010中的SharePoint插件

Visual Studio 2010最大的卖点就是可扩展性.这样就可以借助.NET社区的力量基于VS构建出许多有用的工具.本文中我们将展示如何扩展VS2010的服务器资源管理器,在其中的SharePo ...

报表生成问题,cewolf如何打印成PDF,

问题描述现在一个测试项目Web应用端需要一个报表功能.已经尝试过cewolf, 但是又不知道如何打印.难道要用ireport定义跟cewolf生成的模板一样的jasper来完成打印吗? javaey ...

java sun-JAVA的sun包问题？望解决不甚感激

问题描述 JAVA的sun包问题?望解决不甚感激 package 声音; import java.applet.*; import java.io.*; import sun.audio.*; im ...

商城系统中商品介绍中嵌入图片，怎么存入数据库？还有这些图片怎么编辑呢？

问题描述商城系统中商品介绍中嵌入图片,怎么存入数据库?还有这些图片怎么编辑呢? 商城系统中商品介绍中嵌入图片,怎么存入数据库?还有这些图片怎么编辑呢? 解决方案先图片上传,然后存入文件名到数据库, ...

php通过curl单独抓取网页可以，抓取多个就会出错

问题描述 php通过curl单独抓取网页可以,抓取多个就会出错使用curl单独抓取http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&am ...

《JavaScript专家编程》——1.2 对象概述

1.2 对象概述 JavaScript是由Brendan Eich创建的一种面向对象编程(OOP)语言,当时他还在Netscape公司工作,花了几周的开发时间就发布了.虽然JavaScript的名字中 ...

中石油借船出海10年布局五大区域四大通道

□ 本报记者张宇 5月12日,中国石油天然气股份有限公司(以下简称中石油)在北京召开了2008年度股东大会,正式批准1000亿元的2009年融资授权.中石油债务的资本结构现占12．9%,权益资本8 ...

调查报告：云计算、大数据人才紧俏

俗话说"金三银四",现下正是人才市场供需两旺的季节.对于企业来说,利用该"档期"在四处寻猎心中的最佳人选,填补或公司组织机构调整.或人才流失造成的岗位空缺.对于 ...

东京车展已成日本年轻一代新潮流

你已经浏览完所有图片重新播放播放下一图集X上一张下一张东京车展痛车云集已成日本年轻一代新潮流转帖到:sina kx rr qq 近日,在东京台场(Tokyo Odaiba)举办了了一场声势浩大的车 ...

松下今年预亏高达11亿美元

给中国电子企业敲响警钟商报讯 (记者罗添) 新财年仅过了一个月,日本电子大佬松下电器便预计这个财年将亏损约超过1000亿日元(约合11亿美元). 日本电子企业一般会在4月新财年来临之前预报全年收入 ...

php的socket编程详解_php技巧

php的socket编程算是比较难以理解的东西吧,不过,我们只要理解socket几个函数之间的关系,以及它们所扮演的角色,那么理解起来应该不是很难了,在笔者看来,socket编程,其实就是建立一个网络 ...

可以查询google排名的asp源码_应用技巧

以下是源码,请命名为．ASP文件．复制代码代码如下: <meta http-equiv="Content-Type" content="text/html; c ...

node-webkit打包成exe文件被360误报木马的解决方法_node.js

最近项目需要用到node-webkit.处理古老级用户的兼容以及他们心里的'数据安全'问题. 1.下载完node-webkit 2.制作appName.nw文件 3.copy /b nw.exe+ap ...

php去除头尾空格的2种方法_php实例

看似很简单的问题,其实还是有点坑的,首先这里空格转义,不是字符串,直接用trim()是去不掉. 1,用preg_replace替换复制代码代码如下: $test = " dfadad ...

Javascript编程之继承实例汇总_javascript技巧

本文实例讲述了Javascript编程之继承.分享给大家供大家参考,具体如下: 这篇文字是在看完<Javascript 王者归来>后的整理总结,文章详细章节在第21章 P537 继承一般 ...

javascript时间自动刷新实现原理与步骤_javascript技巧

项目结构: 运行效果: ========================================================= 代码部分: ======================== ...

急求解决asp写个页面每次进入随机网址的代码。。。

问题描述就是一个收录导航系统,我想写一个asp页面,当我每次打开这个asp页的时候,都会随机进入数据库跳转到link表里的url网址,link表里有id.title.url.time...我想过能不 ...

热搜

© 2025 iVAN | info#iamivan.net | 11 q. 0.020 s.