一则python3的简单爬虫代码_python

不得不说python的上手非常简单。在网上找了一下，大都是python2的帖子，于是随手写了个python3的。代码非常简单就不解释了，直接贴代码。

复制代码代码如下:

#test rdp
import urllib.request
import re<br>
#登录用的帐户信息
data={}
data['fromUrl']=''
data['fromUrlTemp']=''
data['loginId']='12345'
data['password']='12345'
user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
#登录地址
#url='http://192.168.1.111:8080/loginCheck'
postdata = urllib.parse.urlencode(data)
postdata = postdata.encode('utf-8')
headers = { 'User-Agent' : user_agent }
#登录
res = urllib.request.urlopen(url,postdata)
#取得页面html<br>strResult=(res.read().decode('utf-8'))
#用正则表达式取出所有A标签
p = re.compile(r'<a href="(.*?)".*?>(.*?)</a>')
for m in p.finditer(strResult):
print (m.group(1))#group(1)是href里面的内容，group(2)是a标签里的文字

关于cookie、异常等处理看了一下，没有花时间去处理，毕竟只是想通过写爬虫来学习python。

时间： 2025-01-01 09:30:04

一则python3的简单爬虫代码_python的相关文章

python设置检查点简单实现代码_python

说检查点,其实就是对过去历史的记录,可以认为是log.不过这里进行了简化.举例来说,我现在又一段文本.文本里放有一堆堆的链接地址.我现在的任务是下载那些地址中的内容.另外因为网络的问题或者网站的问题,每次下载可能不会非常的成功.有可能出现断链或者socket异常错误.不过不管产生什么样的错误,我都希望我的程序能够一直跑下去.或者能停掉后,继续从为下载的链接处跑.而不是从开始的地方跑.这个问题非常简单.因为这些链接是上下文无关的(上下文有关的情况要另外分析).所以我只要记录程序运行停止前的最后一条

Python实现爬取知乎神回复简单爬虫代码分享_python

看知乎的时候发现了一个 "如何正确地吐槽" 收藏夹,里面的一些神回复实在很搞笑,但是一页一页地看又有点麻烦,而且每次都要打开网页,于是想如果全部爬下来到一个文件里面,是不是看起来很爽,并且随时可以看到全部的,于是就开始动手了. 工具 1.Python 2.7 2.BeautifulSoup 分析网页我们先来看看知乎上该网页的情况网址:,容易看到,网址是有规律的,page慢慢递增,这样就能够实现全部爬取了. 再来看一下我们要爬取的内容: 我们要爬取两个内容:问题和回答,回答仅限于显示

Python实现抓取页面上链接的简单爬虫分享_python

除了C/C++以外,我也接触过不少流行的语言,PHP.java.javascript.python,其中python可以说是操作起来最方便,缺点最少的语言了. 前几天想写爬虫,后来跟朋友商量了一下,决定过几天再一起写.爬虫里重要的一部分是抓取页面中的链接,我在这里简单的实现一下. 首先我们需要用到一个开源的模块,requests.这不是python自带的模块,需要从网上下载.解压与安装: 复制代码代码如下: $ curl -OL https://github.com/kennethreitz/

python网页请求urllib2模块简单封装代码_python

对python网页请求模块urllib2进行简单的封装. 例子: 复制代码代码如下: #!/usr/bin/python#coding: utf-8import base64import urllibimport urllib2import time class SendRequest: ''' This class use to set and request the http, and get the info of response. e.g. set Authorization

Python编写百度贴吧的简单爬虫_python

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名代码: # -*- coding: utf-8 -*- #---------------------------- # 程序:百度贴吧的小爬虫 # 日期:2015/03/28 # 语言:Python 2.7 # 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数 # 功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名 #-----

python实现简单爬虫功能的示例_python

在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但这样就降低图片的清晰度.好吧-!其实你很厉害的,右键查看页面源代码. 我们可以通过python 来实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地.下面就看看如何使用python来实现这样一个功能. 一,获取整个页面数据首先我们

仅用50行Python代码实现一个简单的代理服务器_python

之前遇到一个场景是这样的: 我在自己的电脑上需要用mongodb图形客户端,但是mongodb的服务器地址没有对外网开放,只能通过先登录主机A,然后再从A连接mongodb服务器B. 本来想通过ssh端口转发的,但是我没有从机器A连接ssh到B的权限.于是就自己用python写一个. 原理很简单. 1.开一个socket server监听连接请求 2.每接受一个客户端的连接请求,就往要转发的地址建一条连接请求.即client->proxy->forward.proxy既是socket服务端

python 简单的多线程链接实现代码_python

服务端: #!/usr/bin/env import SocketServer class myMonitorHandler(SocketServer.BaseRequestHandler): def handle(self): self.data=self.request.recv(1024).strip() print "From %s : %s" %(self.client_address,self.data) if __name__=="__main__":

一个PHP实现的轻量级简单爬虫_php实例

最近需要收集资料,在浏览器上用另存为的方式实在是很麻烦,而且不利于存储和检索.所以自己写了一个小爬虫,在网上爬东西,迄今为止,已经爬了近百万张网页.现在正在想办法着手处理这些数据. 爬虫的结构: 爬虫的原理其实很简单,就是分析下载的页面,找出其中的连接,然后再下载这些链接,再分析再下载,周而复始.在数据存储方面,数据库是首选,便于检索,而开发语言,只要支持正则表达式就可以了,数据库我选择了mysql,所以,开发脚本我选择了php.它支持perl兼容正则表达式,连接mysql很方便,支

猜你喜欢

Android 4.0平台设计:简洁、美观和更为智能

文章描述:Android 4.0平台交互简析. Android4.0继承了3.0的设计多任务.丰富的通知.可定制的主界面.可调整大小的控件.用于交互和分享的互动性元素.应用程序的结构日趋成熟,几乎没有 ...

SEO如何做有效的外链

国内做SEO的人可能会经常听到这样一句话"你可以不懂如何改META,但你必须知道如何做外链."可见外链作为SEO优化中的一个手段被许多SEO从业者推到了一个非常高的高度. 其实这样 ...

Access数据库的精髓所在

Access爱好者以会VBa为荣.我觉得这不是好现象.vba只是vb的子集,有着很多限制,比如不支持继承,不支持指针,不支持子界类型等.使用vba操作Office家族之外的数据结构是非常困难的. Ac ...

百度拒绝外链工具beta版正式开放

站长网(www.admin5.com)3月20日消息,3月19日,百度宣布经过一段时间内测后,百度站长工具-拒绝外链工具beta版正式面向全网开放.站长只需在站长平台上完成网站的验证就可以使用该工具. ...

换一种思维实现数据库切换

前言当我们提到设计数据库无缝切换的时候,经常用到的办法就是用反射,连微软自带的例子Microsoft .NET Pet Shop也是如此.虽然如此,但一方面反射性能比较低,另一方面我觉得通过字符串的 ...

Photoshop调出街景美女图片时尚的青蓝色

调出街景美女图片时尚的青蓝色青蓝色图片调色较为简单.只需要用调色工具把画面中的杂色都转为蓝色,人物部分再根据背景适当润色即可.不过单一的蓝色会有些单调,可以在画面的局部渲染一些橙红等补色,增加画面的 ...

学会认识vista系统IE保护模式

不知道有多少用户在使用vista? vista之保护模式近些日子发现IE在vista的怀抱下又有了新的发展,有了一个保护模式.(internet选项->安全->启用保护模式) 这个模式用 ...

win7禁止窗口自动最大化

相信用过windows7的朋友都知道,当我们将某个窗口拖拽到屏幕的顶部时窗口就会自动最大化.这就是windows7带来的新功能新亮点之一.可是我认为这也带来了一些弊端,假如你把窗口拖拽到顶部只是为了 ...

中国知网怎么免费下载论文

方法步骤第一种: 1.到中国国家图书馆网站上注册一个账号.http://www.nlc.gov.cn/ 2.进入知网,然后通过关键词i检索文献,之后将需要的文章标题复制下来,然后再从国家图书馆的 ...

Java NIO系列教程（一） Java NIO 概述

原文链接作者:Jakob Jenkov 译者:airu 校对:丁一 Java NIO 由以下几个核心部分组成: Channels Buffers Selectors 虽然Ja ...

link中如何产生两个一样的随机数？其它随机数不能一样？

问题描述 link中如何产生两个一样的随机数?其它随机数不能一样? link中如何产生两个一样的随机数?其它随机数不能一样? 解决方案产生n-1个不同的随机数,然后随机选择一个随机插入其中. 解决方 ...

关于ACCESS数据服务器

问题描述我在编一个客户管理软件,想做到网络版,用的是ACCESS数据库.可否用VB.NET编一个数据服务器.客户端用网络端口的方式访问数据.请教专家,用如何方式可以现实? 解决方案解决方案二:写个 ...

小硅片与大数据的结合——协鑫光伏的新制造之路

本文作者为:阿里云研究中心刘云璐对话苏州协鑫IT总经理周小栋协鑫光伏坐落在环境优美的苏州工业园区,是全球领先的光伏材料制造商,硅片产品占国内流通硅片的70%,处于国内同行业龙头地位.在技术研发.品 ...

在Windows下编译ffmpeg完全手册

本文的内容几乎全部来自于FFmpeg on Windows,但是由于国内的网络封锁,很难访问这个域名下的内容,因此我一方面按照我自己的理解和实践做了翻译,另一方面也是为了能提供一个方便的参考方法. 注 ...

IPv6推广陷入死循环？

在前不久结束的深圳大运会上,IPv6通信网络覆盖了44个比赛场馆.14个非竞赛场馆,承载了多个基于IPv6网络开发的业务应用,为我国IPv6未来发展积累了丰富的实战经验.今年,全球IPv4地址已经分 ...

创业公司如何做数据分析（五）微信分享追踪系统

作为系列文章的第五篇,本文重点探讨数据采集层中的微信分享追踪系统.微信分享,早已成为移动互联网运营的主要方向之一,以Web H5页面(下面称之为微信海报)为载体,利用微信庞大的好友关系进行传播,实现宣 ...

周鸿祎：如何成为一名优秀的产品经理？

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅如今,用户体验这个词已经渗透到越来 ...

intellij idea-IntelliJ IDEA运行控制台没有结果

问题描述 IntelliJ IDEA运行控制台没有结果 IntelliJ IDEA运行java,在控制台输出结果,有时候能正常输出,有时候输出不了.程序没有问题,试过很多次很多程序,运行十次有5次控制 ...

求助：VSTO EXCEL插件引用第三方DLL，部署到其它电脑无效

问题描述引用了一个二维码的DLL(DotNetBarcode),发布后别的电脑安装成功,但只要有引用此DLL的窗体,一律弹不出来.求大神指教. 解决方案解决方案二:http://club.exce ...

函数式JavaScript编程指南_javascript技巧

简介你是否知道JavaScript其实也是一个函数式编程语言呢?本指南将教你如何利用JavaScript的函数式特性. 要求:你应当已经对JavaScript和DOM有了一个基本的了解. 写这篇指 ...

快速入门Vue_javascript技巧

一.什么是Vue? Vue.js(读音 /vjuː/, 类似于 view) 是一套构建用户界面的渐进式框架.与其他重量级框架不同的是,Vue 采用自底向上增量开发的设计.Vue 的核心库只关注视图层 ...

jQuery 事件的命名空间简单了解_jquery

用 jQuery 绑定和解绑事件监听器都是非常简单的.但是当你为一个元素的一个事件绑定了多个监听器时,怎样精确地解绑其中一个监听器?我们需要了解一下事件的命名空间. 看下面这段代码: 复制代码代码如 ...

英特尔开放无线模组供应链：台湾5科技集团受惠

4月26日上午消息,据台湾媒体报道,英特尔开放无线模组供应链,加上笔记本电脑代工厂对于零组件采购掌握权提高,转单效应陆续发酵,五大集团鸿海.华硕.仁宝.广达.纬创结合旗下网通子公司,抢攻每年2亿套的笔 ...

Phalcon入门教程之安装

Phalcon安装 # 下载安装包 wget https://github.com/phalcon/cphalcon/archive/v3.0.1.tar.gz # 重命名 mv v3.0.1.tar ...

Xenomai安装方法

http://www.xenomai.org/index.php/Xenomai_quick_build_quide This is a quick list of commands on compi ...

网络问题

问题描述各位高手们,有点事情要求救大家帮帮忙,指点一下:我公司的网络这两天的网络很不稳定,不只是我这太电脑,是全公司的网络都是一样.我ping网关是没问题的,ping网速都很正常,time都是在几十 ...

生意宝孙德良：净利暴增因坚持三大战略

[http://www.aliyun.com/zixun/aggregation/32866.html">亿邦动力网讯] 11月8日消息,日前,网盛生意宝发布了三季度的财报:三季度生意 ...

vs中如何在treeview节点后面添加按钮

问题描述 vs中如何在treeview节点后面添加按钮解决方案

动视暴雪第二财季净营收为10.50亿美元

低于去年同期的10.75亿美元.腾讯科技讯(坎贝)北京时间8月2日消息,动视暴雪今天发布了2013财年第二财季财报.报告显示,动视暴雪第二财季净营收为10.50亿美元,低于去年同期的10.75亿美元: ...

成都产首款3D网游《龙魂》受媒体追捧

人民网15日电西南地区首款自主研发的3D网络游戏<龙魂>将于21日开启不删档测试.连日来,这款游戏由于被打上了"成都造"."史玉柱最不看好网游"等 ...

热搜

© 2025 iVAN | info#iamivan.net | 11 q. 0.024 s.