url-使用Python抓取下一页网页数据

问题描述

使用Python抓取下一页网页数据

怎么抓取一个无论怎么跳转其url都不变的网页？通过Requests和BeautifulSoup能实现吗？

http://www.szairport.com/frontapp/HbxxServlet?iscookie=C

另外其下一页的跳转指令是js写的，我该怎么通过这条指令跳转下一页，命令如下：

 [<a href="javascript:void(0);" onclick="page.moveNext()">下一页</a>]

另附上我修改的代码;

import requests
import re
import BeautifulSoup
import json
a={"start":150,"limit":20}
r=requests.post("http://www.szairport.com/frontapp/HbxxServlet",data=json.dumps(a))
soup=BeautifulSoup.BeautifulSoup(r.text)
print soup

解决方案

可以不用获取js的，通过form data,也可以获取指定页的数据

解决方案二：

贴上我尝试的代码，新手见谅

 import requests
import re
import BeautifulSoup
a={"Start":"150"}
r=requests.post("http://www.szairport.com/frontapp/HbxxServlet",data=a)
soup=BeautifulSoup.BeautifulSoup(r.text)
print soup

解决方案三：

你可以先分析它跳转到下一页的URL格式，比如通过参数等，然后自己来构造对应的参数。发送请求

时间： 2024-09-19 23:10:48

url-使用Python抓取下一页网页数据的相关文章

手把手教你用Python抓取AWS的日志(CloudTrail)数据

数据时代,利用数据做决策是大数据的核心价值. 本文手把手,教你使用python进行AWS的CloudTrail配置,进行日志抓取.进行数据分析,发现数据价值! 如今是云的时代,许多公司都把自己的IT架构部署在基础架构云(IaaS)上.著名的IaaS提供商有亚马逊,微软(Azure),IBM等,国内也有诸如阿里云等.其中,亚马逊毫无疑问是该市场的领军者. AWS提供了非常多的服务,领先了竞争对手一大截.并且AWS提供非常丰富的API,其API基于Rest,所以很容易被不同的语言的平台来

python抓取豆瓣图片并自动保存示例学习_python

环境Python 2.7.6,BS4,在powershell或命令行均可运行.请确保安装了BS模块复制代码代码如下: # -*- coding:utf8 -*-# 2013.12.36 19:41 wnlo-c209# 抓取dbmei.com的图片. from bs4 import BeautifulSoupimport os, sys, urllib2 # 创建文件夹,昨天刚学会path = os.getcwd() # 获取此脚本所在目录new_path = os.pat

url-如何使用Python抓取翻页网页的数据

问题描述如何使用Python抓取翻页网页的数据我想使用Python抓取一个需要翻页的网页所有数据,但换页时URL不变,我想找到换页的接口,通过接口访问下一页的数据.请问怎样分析?http://www.szairport.com/frontapp/HbxxServlet?iscookie=C

python-问一个关于Python抓取页面跳转的问题（略愚蠢。。。）

问题描述问一个关于Python抓取页面跳转的问题(略愚蠢...) 真的.可能这问题真的挺愚蠢...但咱还是厚着脸皮问下大神了... 问题是这样的:我在做一个抓取我们学校教务系统课表的爬虫,登陆的已经写好了,问题出在登陆以后怎么跳转. 登陆后的页面和切换到(跳转到)课程表页面的url是一样一样的... 而且wireshark抓包也没发现任何post数据包教务系统截图如下也是没任何post包,我试了下postdata也是没抓取到课程表页面... 总结一下: 1.页面跳转后url和跳转前一致 2

通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)_AJAX相关

在学习python的时候,一定会遇到网站内容是通过 ajax动态请求.异步刷新生成的json数据的情况,并且通过python使用之前爬取静态网页内容的方式是不可以实现的,所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据. 至于读取静态网页内容的方式,有兴趣的可以查看本文内容. 这里我们以爬取淘宝评论为例子讲解一下如何去做到的. 这里主要分为了四步: 一获取淘宝评论时,ajax请求链接(url) 二获取该ajax请求返回的json数据三使用python解析json数据

python抓取最新博客内容并生成Rss

本文给大家分享的是使用python抓取最新博客内容并生成Rss的代码,主要用到了PyRSS2Gen方法,非常的简单实用,有需要的小伙伴可以参考下. osc的rss不是全文输出的,不开心,所以就有了python抓取osc最新博客生成Rss ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 4

Python抓取框架：Scrapy的架构

最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具. 一.概述下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示).下面就来一个个解释每个组件的作用及数据的处理过程. 二.组件 1.Scrapy Engine(Scrapy引擎) Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发.更多的详细内容可以看下

IBM面试题，用JAVA抓取下整个网站

问题描述作业要求:1.给定一个网站的URL,抓取下整个网站,包括网页.图片等等.2.对该网站的所有对象进行一个统计,比如链接.图片.按钮等等分别有多少. 解决方案解决方案二:同问!!!是不是要解析该网站下的源代码哦?解决方案三:这题给的不着调啊.加入我有两个页面,分别是http://xxxxx/a和http://xxxxx/b,这两个页面没有相互引用.这算一个网站的吧?你怎么从a知道b呢?出题的弱智吧,限制条件都说不清楚解决方案四:1.给定一个网站的URL,抓取下整个网站,包括网页.图片等等