一个网页抓取碰到的难题，无法获取淘宝产品列表

问题描述

最近在做一个抓取淘宝店铺的程序，抓取遇到跳转登陆问题，我用抓包看了一下应该是cookie这块问题(本人小白只是猜想)。采集页面如：http://pondppd.taobao.com/search.htm（C#实现）页面其他部位都是正常显示，唯独只有产品列表出现了window.local.href=跳转到淘宝登陆页面去了。试了几种抓取方式都未能解决，求大神指教

解决方案

本帖最后由 yesanpo 于 2015-01-07 09:46:14 编辑
解决方案二：
自己顶一下，在线等
解决方案三：
看不懂，感觉是淘宝广告....
解决方案四：
在这里打广告就没意思了，我是想做采集，说的很明确啊，难道我表达的是有问题
解决方案五：
留个座位，也想知道
解决方案六：
求楼主分享下抓包代码
解决方案七：
看来论坛是没人能解决这个问题了，我想删帖还没权限了
解决方案八：
至少你先学会抓包吧，直接发链接等着谁干活呢

时间： 2025-01-21 16:48:27

一个网页抓取碰到的难题，无法获取淘宝产品列表的相关文章

html-怎么用Jquery实现从一个网页抓取指定内容

问题描述怎么用Jquery实现从一个网页抓取指定内容已知一个网页的网址,现在抓取该网页的指定内容,比如说标题,发布时间,浏览次数等.怎么做????? 解决方案 http://www.gbtags.com/technology/javautilities/20120720jsoupjquerysnatchpage/ 解决方案二: 看看jquery 里面的load 方法. 其实做好还是用服务端语言做. 解决方案三: 客户端搞不了,有跨域问题,这种一般用采集软件来做,如火车头解决方案四: 用Ht

用TinySpider进行网页抓取实例

本例中用到的maven坐标变化如下: ? 1 2 3 4 5 <dependency> <groupId>org.tinygroup</groupId> <artifactId>org.tinygroup.spider</artifactId> <version>0.1.0-SNAPSHOT</version> </dependency> 在百度中搜索笑话,看到这么一个网站:http://www.jokeji.

构建一个高性能的网页抓取器，互联网营销

互联网的发展,使人类提前进入了信息爆炸的年代,在浩瀚无边的信息海洋里,如何快速.准确找到对自己有用的信息,就成了一个很有价值的研究课题,于是,搜索引擎应运而生.现在,国内外大大小小的搜索引擎有很多,搜搜也是这搜索引擎大军中的一员悍将.笔者有幸参与了搜搜研发过程中的一些工作,在这里写一些自己的理解与看法,权当是抛砖引玉,希望能够得到业内前辈们的一些指点. 对于网页搜索引擎来说,它的基本处理流程,通常可以分为三个步骤:一是对海量互联网网页的抓取,也称下载:二是对已下载的网页进行预处理,包括抽取正

c#-C# 网页抓取保存为图片

问题描述 C# 网页抓取保存为图片给个网址,然后把整个网页以图片的形式保存到本地要求 :1. 要保存的是整个网页,从头到尾2.如果网页超出屏幕,请模拟下拉滚动条至网页底部,待网页所有元素加载完毕后,再保存解决方案这个需求对于那些所谓"瀑布流"方式加载的网页,典型的,新浪微博和google图片搜索结果,它下拉下来是无限长的,而你的内存不是无限大的,一下子就把你的程序搞死了. 解决方案二: c#获取整个网页截图解决方案三: 现在的问题是如何判断一个网站完全打开,包括所有的图片已经打

网页抓取工具之数据预处理

提取的数据还不能直接拿来用?文件还没有被下载?格式等都还不符合要求?别着急,网页抓取工具火车采集器自有应对方案--数据处理. 图片1.png 网页抓取工具的数据处理功能包括三个部分,分别是内容处理.文件下载.内容过滤.下面依次给大家介绍: 1.内容处理:对从内容页面提取的数据进行替换.标签过滤.分词等进一步处理,我们可以同时添加多个操作,但这里需要注意的是,有多个操作时是按照从上到下的顺序来执行,也就是说,上个步骤的结果会作为下个步骤的参数. 下面来逐个介绍一下: ①提取内容为空:如果通过前面的

善用网页抓取工具，数据轻松收入囊中

数据已走进各行各业并得到了广泛应用,伴随着应用而来的则是对数据的获取和准确挖掘.我们可应用的数据多来自内部资源库以及外部载体,内部数据整合即用,而外部数据却需要先行获取.外部数据的最大载体就是互联网,网页中每天难以数计的增量数据里,就包含着许多对我们有利用价值的信息. 如何最高效地从海量信息里获取数据呢?网页抓取工具火车采集器有高招,以自动化的智能工具代替人工的数据收集,当然更高效也更准确. 一.数据抓取的通用性作为通用的网页抓取工具,火车采集器基于源代码的操作原理让可抓取的网页类型达到99%

初学指南| 用Python进行网页抓取

引言从网页中提取信息的需求日益剧增,其重要性也越来越明显.每隔几周,我自己就想要到网页上提取一些信息.比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引.我们不仅需要找出新的课程,还要抓取对课程的评论,对它们进行总结后建立一些衡量指标.这是一个问题或产品,其功效更多地取决于网页抓取和信息提取(数据集)的技术,而非以往我们使用的数据汇总技术. 网页信息提取的方式从网页中提取信息有一些方法.使用API可能被认为是从网站提取信息的最佳方法.几乎所有的大型网站,像Twitter.

《用Python写网络爬虫》——2.2 三种网页抓取方法

2.2 三种网页抓取方法现在我们已经了解了该网页的结构,下面将要介绍三种抓取其中数据的方法.首先是正则表达式,然后是流行的BeautifulSoup模块,最后是强大的lxml模块. 2.2.1 正则表达式如果你对正则表达式还不熟悉,或是需要一些提示时,可以查阅https://docs.python.org/2/howto/regex.html 获得完整介绍. 当我们使用正则表达式抓取面积数据时,首先需要尝试匹配元素中的内容,如下所示. >>> import re >>&

Node.js实现的简易网页抓取功能示例_node.js

现今,网页抓取已经是一种人所共知的技术了,然而依然存在着诸多复杂性, 简单的网页爬虫依然难以胜任Ajax轮训.XMLHttpRequest,WebSockets,Flash Sockets等各种复杂技术所开发出来的现代化网站. 我们以我们在Hubdoc这个项目上的基础需求为例,在这个项目中,我们从银行,公共事业和信用卡公司的网站上抓取帐单金额,到期日期,账户号码,以及最重要的:近期账单的pdf.对于这个项目,我一开始采用了很简单的方案(暂时并没有使用我们正在评估的昂贵的商业化产品)--我以前在M

猜你喜欢

NYOJ325-zb的生日

zb的生日时间限制:3000 ms | 内存限制:65535 KB 难度:2 描述今天是阴历七月初五,acm队员zb的生日.zb正在和C小加.never在武汉集训.他想给这两位兄弟买点什么庆祝 ...

Access 中如何使用 ADO 來压缩或修复 MS Access 文件？

access|ado|压缩 Access 中如何使用 ADO 來压缩或修复 MS Access 文件?专题地址:http://access911.net/index.asp?board=4&r ...

sqlserver有用函数

server|sqlserver|函数 ISNULL使用指定的替换值替换 NULL.语法I ...

【Eclipse插件开发】基于WTP开发自定义的JSP编辑器（六）

IStructuredModel(DOM Document)分析视图前面的几节中,我们都已经完整的介绍过了WTP最核心的几个数据模型:语法Document (IStructuredDocument) ...

flash8.0滤镜详解及应用范例

以前制作水波效果,多是运用遮罩方法,现在Flash8的滤镜功能为我们提供了新的途径,而且制作出来的效果非常逼真.先来看看用模糊滤镜制作的水波动画效果,如图7-31所示. 图7-31 范例效果下面详细 ...

WCF技术剖析之三：如何进行基于非HTTP的IIS服务寄宿

在上面一篇文章中,我们对不同版本的IIS,以及ASP.NET得的实现机制进行了详细而深入的分析.在介绍IIS7.0的时候,我们谈到,HTTP.SYS+W3SVC实现了基于HTTP的请求监听,在此基础上 ...

信息系统开发平台OpenExpressApp －支持勾选视图

在OpenExpressApp中部门+岗位＝角色,功能权限属于角色的,所以功能权限也放在部门模块中设置了,后期将会单独对权限部门进行介绍,本篇讲解一下在功能权限实现中使用到的一种新的内置视图样式,我把 ...

Android中webView不能正常加载Twitter连接

问题描述: 利用webView打开twitter的连接时不能成功,显示一片空白. 解决方式: 为webView设置().setDomStorageEnabled 即:mWebView.getSetti ...

Excel制作本年各季度的利润情况和本年利润计划柱状图的方法

Excel制作本年各季度的利润情况和本年利润计划柱状图的方法有这个一个excel 表格,本年各季度的利润情况和本年利润计划. 下面的柱形图你肯定会做,直接插入就行了. 让三个季 ...

Photoshop制作逼真的古典木质沙发椅子

椅子的颜色比较深,很多细节部分不仔细看很难发现.制作的时候可以把颜色设置稍微亮一点,这样细节及高光部分比较容易刻画,做好后再压暗即可. 最终效果 <点小图查看大图> 1.沙发凳主要由木架及 ...

路由器后门是什么？

问:昨天看到好多新闻说,D-Link 思科等多家厂商的路由器存在后门,被黑客入侵了,请问什么是路由器后门?怎么会存在后门呢? 答:路由器后门是在开发软件的时候,为了日后检测调试等方便技术人员操作而 ...

jQuery 浮动导航菜单适合购物商品类型的网站

单页面网页内容较多,页面长度较大,需要方便快速的在页面的不同位置进行定位,所以浮动菜单逐渐流行了起来,如下图男装.女装.美妆等. 这种菜单功能分为两部分: 1.点击菜单项,网页滚动到对应位置,可简 ...

欧洲杯观赛电脑必备 11款软件全阵容首发

4年一度的欧洲杯即将于这个周末火热开赛!大牌明星云集,赛事精彩纷呈,相信广大球迷们一定不想错过!相邀三五好友坐在bar里看球,喝啤酒,为自己喜欢的球队加油呐喊的确是件特别过瘾的事.不过对于白天有繁忙工 ...

android-点击按钮后之前的activity的状态值改变

问题描述点击按钮后之前的activity的状态值改变我使用下面的代码从 running activity 中打开一个新的 Activity: Intent intent = new Intent( ...

ASP.NET Aries JSAPI 文档说明：AR.Utility

AR.Utility 文档 1:方法: 名称说明 queryString function (key) *模拟.NET的Request对象 stringFormat function (str, a ...

ELK的崛起(Rise of the ELK)

前言忽如一夜春风来,千树万树梨花开,恍惚之间,ELK亦是遍地开花,甚至提供类似ELK解决方案的专业公司数量已然可观. ELK的用途传统意义上,ELK是作为替代Splunk的一个开源解决方案.Spl ...

temp1 =Integer.parseInt(String.valueOf(cardId.charAt(len)));这句为什么不能运行，错误是未知数据愿？

问题描述 importjava.util.*;publicclassStringPractise{publicstaticStringstr(){Scannerinput=newScanner(Sys ...

一个詭异的乱码问题（MYSQL）

问题描述 public void test(){try {Class.forName("com.mysql.jdbc.Driver");Connection connection ...

android上的离线推送，是否假离线，是否能实现实时离线推送

问题描述测试手顺和现象:1.使用环信Demo,首先登陆环信,在环信开启和应用程序隐藏后台(pause)的情况下,消息都能实时的推送过来,但是当程序关闭后,推送消息没有响应.2.在程序关闭后,查看设置 ...

html jsp-jsp 使用简单的url mapping的问题菜鸟，求教，谢谢

问题描述 jsp 使用简单的url mapping的问题菜鸟,求教,谢谢 ![ 老是提示The requested resource is not available. 不会用这种方法,求解答解决 ...

还在跑分？什么样的固态硬盘才是好产品

还记得若干年前,笔者花掉2000元成为首批固态硬盘(SSD)的小白兔.随后固态硬盘的发展几乎可以用翻天覆地来形容:首先,存储容量呈现出曲线上升趋势:其次,SSD的读写性能也是显著提升:最后,关键的产品 ...

阿里巴巴王坚：我们的客户才是最会用数据的人

王坚,阿里巴巴最富争议性的人物之一,爱者极爱,恨者极恨. 5月12日,我和MTC的朋友,在杭州发起并主持了一场关于云计算的沙龙,虾米的思践聊了云音乐,快的打车陈伟星聊了云时代的产品设计,短趣网王强宇聊 ...

哪位大神知道如何在C#中arcgis mapcontrol控件加载gst格式的地图

问题描述哪位大神知道如何在C#中arcgismapcontrol控件加载gst格式的地图,求相关代码

rho 1.0.12发布小型文本编辑器

rho 1.http://www.aliyun.com/zixun/aggregation/37104.html">0.12这主要是一个文档发行版.宏DOC和丰富的原创rhorc已并入 ...

如何在Default.aspx中写HTML语言啊？

问题描述 Default.aspx中,将开头的内容<%@%>保留,剩余的内容全删了,然后写HTML语言,结果出现一个警告,如下图所示.我发现将头部的MasterPageFile=" ...

查看mysql数据库版本方法总结

当你接手某个mysql数据库管理时,首先你需要查看维护的mysql数据库版本:当开发人员问你mysql数据库版本时,而恰好你又遗忘了,那么此时也需要去查看mysql数据库的版本........... ...

年利率高达47％捷信消费品贷款就是高利贷

图为武汉2万多名大学生贷款买电子产品,总额超1.6亿元.(图片来源:深圳商报)武汉2万大学生贷款买苹果等电子产品调查贷款年利率高达47%有商家称,捷信的操作"是损人利己",其消费品 ...

试析J2EE与.NET时代的商业利润

题外话:前几日笔者的"一个JavaFans的质疑和忧虑"得到诸位的热烈捧场,非常感谢!该文题为"质疑和忧虑",自然是源于笔者学习过程中产生的焦虑情绪.故而期待诸 ...

Li-Fi灯光上网带宽达10G

[搜狐IT消息]10月29日,据BBC报道,英国研究人员在利用可见光线进行无线数据传输的技术(又名"Li-Fi"或"灯光上网")上取得了最新进展,将数据传输速度 ...

PHP5.0对象模型深度探索之起步

面向对象编程被设计来为大型软件项目提供解决方案,尤其是多人合作的项目. 当源代码增长到一万行甚至更多的时候,每一个更动都可能导致不希望的副作用. 这种情况发生于模块间结成秘密联盟的时候,就像第一次世界 ...

热搜