python 自动提交和抓取网页_python

下面是用python写的，使用lxml来做html分析，从网上看到的，说是分析速度最快的哦，不过没有验证过。好了，上代码。

复制代码代码如下:

import urllib
import urllib2
import urlparse
import lxml.html
def url_with_query(url, values):
parts = urlparse.urlparse(url)
rest, (query, frag) = parts[:-2], parts[-2:]
return urlparse.urlunparse(rest + (urllib.urlencode(values), None))
def make_open_http():
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
opener.addheaders = [] # pretend we're a human -- don't do this
def open_http(method, url, values={}):
if method == "POST":
return opener.open(url, urllib.urlencode(values))
else:
return opener.open(url_with_query(url, values))
return open_http
open_http = make_open_http()
tree = lxml.html.fromstring(open_http("GET", "http://www.jb51.net").read())
form = tree.forms[0]
form.fields["q"] = "eplussoft"
form.action="http://www.jb51.net/search"
response = lxml.html.submit_form(form,open_http=open_http)
html = response.read()
doc = lxml.html.fromstring(html)
lxml.html.open_in_browser(doc)

恩，验证码是个大问题。还有今天看了一些百度贴吧上的东西，更是坏了心情，它的验证码是用ajax取的图片，这就更加麻烦了。不过好像现在大多数的论坛和博客的验证码都是这样的了。这样第一次抓取下来的页面就不会包含有验证码图片了，更不要说分析验证码图片了。要解决的问题还是很多的。。。

时间： 2024-10-04 20:05:35

python 自动提交和抓取网页_python的相关文章

python使用自定义user-agent抓取网页的方法_python

本文实例讲述了python使用自定义user-agent抓取网页的方法.分享给大家供大家参考.具体如下: 下面python代码通过urllib2抓取指定的url的内容,并且使用自定义的user-agent,可防止网站屏蔽采集器 import urllib2 req = urllib2.Request('http://192.168.1.2/') req.add_header('User-agent', 'Mozilla 5.10') res = urllib2.urlopen(req) html

Python使用requests来抓取网页

文章转载自:http://www.yangyanxing.com/?p=1079 1. requests介绍早就听说requests的库的强大,只是还没有接触,今天接触了一下,发现以前使用urllib,urllib2等方法真是太搓了-- 这里写些简单的使用初步作为一个记录一.安装python的requests模块,使用pip或easy_install都可以二.发送无参数的get请求 r = requests.get('http://httpbin.org/get') print r.

编码-python抓取网页，网页源码无法解码

问题描述 python抓取网页,网页源码无法解码抓取的网页:http://esf.nanjing.fang.com/ 浏览器查看源码显示content="text/html; charset=gb2312" python chardet 结果显示{'confidence': 0.0, 'encoding': None} 通过page=page.decode('gb2312','ignore').encode('utf-8'),解码后print为乱码求问应该如何对这个网页的源代码进行

Python urllib、urllib2、httplib抓取网页代码实例

这篇文章主要介绍了Python urllib.urllib2.httplib抓取网页代码实例,本文直接给出demo代码,代码中包含详细注释,需要的朋友可以参考下使用urllib2,太强大了试了下用代理登陆拉取cookie,跳转抓图片...... 文档:http://docs.python.org/library/urllib2.html 直接上demo代码了包括:直接拉取,使用Reuqest(post/get),使用代理,cookie,跳转处理 ? 1 2 3 4 5 6 7 8 9

零基础写python爬虫之使用urllib2组件抓取网页内容_python

版本号:Python2.7.5,Python3改动较大,各位另寻教程. 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在Python中,我们使用urllib2这个组件来抓取网页. urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件. 它以urlopen函数的形式提供了一个非常简单的接口. 最简

用Python程序抓取网页的HTML信息的一个小实例

这篇文章主要介绍了用Python程序抓取网页的HTML信息的一个小实例,用到的方法同时也是用Python编写爬虫的基础,需要的朋友可以参考下抓取网页数据的思路有好多种,一般有:直接代码请求http.模拟浏览器请求数据(通常需要登录验证).控制浏览器实现数据抓取等.这篇不考虑复杂情况,放一个读取简单网页数据的小例子: 目标数据将ittf网站上这个页面上所有这些选手的超链接保存下来. 数据请求真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定: ? 1 d

求教如何通过python抓取网页中表格信息

问题描述求教如何通过python抓取网页中表格信息刚刚开始学习python 不清楚如何通过python抓取网页中的表格信息比如给定一个student.html 里面有学号.姓名.性别等信息怎么样写才能够输入学号读出其他信息? 解决方案用正则表达式,表格数据放在table->tr->td中解决方案二: 输入学号然后服务器在给你其他数据,应该是一个post的过程-你可以抓包看一下整个过程-至于提取特定的信息,你可以先看下整个表格的结构,再有针对性的写个正则表达式来提取出信息- 解决方

python抓取网页图片

# -*- coding: utf-8 -*- #--------------------------------------- # 程序:网页图片抓取 # 作者:lqf # 日期:2013-08-10 # 语言:Python 2.7 # 功能:抓取网页jpg链接图片 #--------------------------------------- import re import string import sys import os import urllib url="http://tie

Python打印scrapy蜘蛛抓取树结构的方法_python

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法.分享给大家供大家参考.具体如下: 通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0): urls = allurls[referer] for url in urls

猜你喜欢

Photoshop化妆摄影图片合成:繁花似锦的效果

本章我们讨论的是如果通过后期二次再造型,而使照片达到一种繁花似锦的效果,化妆,摄影,后期设计原为一体,都是一张成功作品缺一不可的前提,我之所以在此想与大家讨论下电脑二次再造型,也是想通过电脑之手让化妆 ...

关于WEB的数据库查询

web|数据|数据库 ---- 97 年以来基于WEB 的数据库应用在数据库界谈论的颇多, 基于WEB 的数据库的应用, 是将数据库和WE ...

Oracle的resetlogs机制

alter database open resetlogs 这个命令我想大家都很熟悉了,那有没有想过这个resetlogs选项为什么要用?什么时候用?它的原理机制是什么?他都起哪些作用? 我们都知道数 ...

sql中translate与replace的区别

1.translate 语法:TRANSLATE(char, from, to) 用法:返回将出现在from中的每个字符替换为to中的相应字符以后的字符串. 若from比to字符串长,那么在fro ...

PHP Notice: Undefined index错误提示的解决办法

这两天新装了服务器,改为Apache+PHP5.4.3,配置好后运行PHP网站,出现了一个错误提示:"PHP Notice: Undefined index ..." 具体的信 ...

USB3.1和USB3.0有什么区别

USB3.1是最新的USB规范,该规范由英特尔等大公司发起.数据传输速度提升可至速度10Gbps.与USB 3.0技术相比,新USB技术使用一个更高效的数据编码系统,并提供一倍以上的有效数据吞吐率 ...

Win7旗舰版系统怎么查看进程PID标识符？

在Win7旗舰版系统下,进行一些操作的时候需要知道进程的标识符,大家都知道进程可以在win7系统中的任务管理器中查看,不过我们看不到有PID 标识符,下面小编就介绍下查看进程PID的方法,有需要的朋友 ...

[Hadoop]MapReduce多路径输入与多个输入

1. 多路径输入 FileInputFormat是所有使用文件作为其数据源的 InputFormat 实现的基类,它的主要作用是指出作业的输入文件位置.因为作业的输入被设定为一组路径, 这对指定作业输 ...

【进阶】关于宏定义和内联函数

Tips: 1. 对于单纯常量,尽量用const对象或者enums替换 #define 2. 对于形似函数的宏(marcos),最好改用inline函数替换#define 我们先来看一般的宏定义 #d ...

利用 mount 指令解决 Read-only file system的问题

在linux系统中创建一个文件提示: /application/report/shiwei # touch test.c touch: cannot touch `test.c': Read-only ...

如何理解大数据分析

如今,云计算的热潮似乎还没散去,行业厂商就已经开始关注下一个热点:大数据.而与以往的炒作周期一样,现在的大数据对于用户来说其来源比较混乱,因为供应商提出了自己独特的,并且经常相互矛盾的定义和术语. 大 ...

flex4-flex方法加载顺序问题

问题描述 flex方法加载顺序问题 setParam(); setGridColumn(); queryVersionList(); setCompareList(); queryJfwData(); ...

关于WinForm窗体退出问题

问题描述我在做一个WinForm的管理系统,我想当成功登陆后显示主窗体,然后让登陆窗体关闭．这改怎么办呀,请高手指点．谢谢了! 解决方案解决方案二:http://www.blogjava.net/ ...

linux-Linux上搭建安卓开发环境出错

问题描述 Linux上搭建安卓开发环境出错在最后一步运行./studio.sh时没能打开Android Studio,提示是内部错误,请问是什么原因怎么解决? 解决方案 Linux下搭建Androi ...

渗透测试人员必备技能：实施渗透测试的HTTP方法

如果你没有积极地参与Web应用程序开发,几乎就不可能了解HTTP协议的内部工作机理,也几乎没有机会知道Web应用程序与数据库进行交互的不同方法,也无法真正知道,当用户点击了一个链接或在浏览器的URL中 ...

getrequestdispatcher-servlet用getRequestDispatcher（）实现服务器跳转，出现404错误

问题描述 servlet用getRequestDispatcher()实现服务器跳转,出现404错误项目目录: 关键代码: 配置文件: 主页代码Login.jsp: 主页及点击提交后页面: 解决方案 ...

ios开发-如何给一个在tableview外的button添加点击tableview内一个cell的事件？

问题描述如何给一个在tableview外的button添加点击tableview内一个cell的事件? 小弟萌新请教各位我想实现一个像CSDN手机APP中的一个效果. CSDN左边栏中点击用户头 ...

《基于ArcGIS的Python编程秘笈（第2版）》——导读

前言 ArcGIS是Esri公司研发的构建于工业标准之上的地理信息系统软件系列的总称. 本书将介绍如何使用Python语言来创建桌面ArcGIS环境下的地理处理脚本.工具和快捷方式等.并通过介绍如何使 ...

鼠标滑轮滚动放大缩小图片

问题描述 java中用鼠标滑轮滚动放大缩小图片怎么实现?哪位高手指点下,谢谢!

delphi 7-Delphi 求高手帮代码改正

问题描述 Delphi 求高手帮代码改正 program Project1; uses Forms, PMain in 'PMain.pas' {FMain}, PStudent in 'PStude ...

富士打印机器人能直接将打印文档送到你手中

摘要: 虽然今天话风又回归啦,不代表我们不尝试.不改版了.Maker 们,syq#36kr.com,你们懂得.(详情参见文末) 富士打印机器人能直接将打印文档送到你手中最近,Fuji Xerox(富 ...

详细解读JavaScript编程中的Promise使用_基础知识

Promise核心说明尽管Promise已经有自己的规范,但目前的各类Promise库,在Promise的实现细节上是有差异的,部分API甚至在意义上完全不同.但Promise的核心内容,是相通的, ...

ThinkPHP行为扩展Behavior应用实例详解_php实例

本文以实例的形式详细介绍了ThinkPHP的行为扩展Behavior的实现方法,有助于读者更灵活的掌握ThinkPHP的开发,具体步骤如下: ThinkPHP 行为扩展 (Behavior) 流程: ...

Android时间选择器、日期选择器实现代码_Android

本文为大家分享了两款选择器,一款可以针对时间进行选择.一款可以针对日期进行选择,供大家参考,具体内容如下一.时间选择器1.1.布局 <?xml version="1.0" ...

HID Global推出新款轻薄UHD应答器TapMark

HID Global推出TapMark,一组兼容EPC Gen2及ISO 18000-6C标准的轻薄UHF应答器.TapMark标签适用于表面贴装场景,包括家具,办公设备或IT资产追踪. 该标签使用I ...

开放的力量—破解 GitHub 的发展密码

GitHub : 一个共享虚拟主机服务,用于存放使用 Git 版本控制的软件代码和内容项目.它由 Chris Wanstrath.PJ Hyett 和 Tom Preston-Werne 用 Ruby ...

AliSQL 20170716版本发布 Invisible Indexes 功能和 SELECT FROM UPDATE 语法

Abstract 在传统的关系数据库中,想要在堆表或者索引组织表中快速的检索到目标数据,添加索引是一个常用的手段,但过多的索引不但增加空间的开销,还会带来写入性能的衰减,如何降低在线删除索引的风险,I ...

结合品牌logo的春节gui设计

摘要: 2012?你会想到什么?过去式?世界末日的代名词?哈,我们都走过去喽,不论是你想与不想,期待不期待,2013都平安地到来啦,是不是很期待2013年的重生呢,是不是想好了要怎么过这个特殊 201 ...

uploadify在ff下进不了后台

问题描述 uploadify在ff下进不了后台,在ie下能进后台,可是刷新一次后,也进不了了,求高手解决一下解决方案 uploadify在ff能进后台但是session是传不过去的,必须通过jses ...

民意走向发生变化: 苹果支持率已接近于FBI

基本上可以用"五五开"来形容,接下来就要看法庭的对峙结果了. 苹果拒绝配合 FBI 解锁手机的事件在网络上形成话题之后,曾有媒体进行过民意调查,结果发现有更多人支持 FBI,也就是 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.024 s.