爬取微博数据遇到的问题

问题描述

现在已经能够进行模拟登陆了。为什么只能查看到一个公众人物的相关信息,诸如易中天、王文京、曾志勇等,却不能通过模拟登陆查看到诸如我的同事相关的信息呢?自己真的是想得太简单了,请解决了的、碰到了此问题的帮忙解答下

解决方案

解决方案二:
你是通过开放平台爬取微博数据的么?
解决方案三:
不是,自个写的爬虫,硬爬,没有借助开放的api。
解决方案四:
引用2楼beijing20120926的回复:

不是,自个写的爬虫,硬爬,没有借助开放的api。

可以拿出来展示,大家研究下~~
解决方案五:
引用3楼s060403072的回复:

Quote: 引用2楼beijing20120926的回复:
不是,自个写的爬虫,硬爬,没有借助开放的api。

可以拿出来展示,大家研究下~~

用api不是更容易嘛?!分享一下"硬爬"
解决方案六:
其实就是抓包进行模拟登陆,再解析。
解决方案七:
还是用开放的API更实在。。

时间: 2024-10-21 12:03:30

爬取微博数据遇到的问题的相关文章

node爬取微博的数据的简单封装库nodeweibo使用指南_node.js

一.前言 就在去年12月份,有个想法是使用node爬取微博的数据,于是简单的封装了一个nodeweibo这个库.时隔一年,没有怎么维护,中途也就将函数形式改成了配置文件.以前做的一些其他的项目也下线了,为了是更加专注前端 & node.js.偶尔看到下载量一天超过60多,持续不断的有人在用这个库,但是看下载量很少也就没有更新.但是昨天,有人pull request这个分支了,提出一些中肯的建议和有用的代码.于是就认真回顾了下nodeweibo,发布了v2.0.3这个版本. 二.什么是nodewe

爬取微博用户数据

前言 查找的过程 核心 总结 前言 微博数据基本上可以说是社交圈里面最大的了.但是单纯的使用urllib,是不足以获取数据的. 今天来使用Cookie的方式绕开微博权限验证这一关卡, 爬取一下数据. 查找的过程 打开Chrome 的F12之后,刷新页面,真的是眼花缭乱的数据流啊,飞流直下.找了好久,发现大部分数据都是通过JavaScript脚本渲染到页面上的. 这也就是为什么单纯的使用urllib抓不到的原因了.因为这是动态页面,而Urllib则是抓取静态页面.明白了这一点,就找到了方向了. 那

python爬取页面数据错误,连续爬很多页数。我主要改变的是post里面的参数pageno

问题描述 python爬取页面数据错误,连续爬很多页数.我主要改变的是post里面的参数pageno 爬数据的时候,比如有800页数据要爬,爬到400多页会出现返回400错误,没有数据.但是如果将程序从400页到800再重新爬,又不会报错. 求解决方法

微博爬虫-求助。用python爬取微博用户的粉丝列表及粉丝的粉丝列表

问题描述 求助.用python爬取微博用户的粉丝列表及粉丝的粉丝列表 急需一份能爬取微博用户的粉丝列表及对应粉丝的粉丝列表搭建一个实验平台,由于自己编程能力太弱,所以希望好心人能给一份相应的python代码(其他语言编写的能运行的也可),在线等,急求! 解决方案 Python:获取新浪微博用户的收听列表和粉丝列表微博粉丝 解决方案二: python爬取糗百 模式不变 改一下正则就可以 也可以用sqllite保存 .正则自己网上看一下就回了 解决方案三: urllib请求页面获取response

请问这个连接怎么爬取分页数据,找不到连接

问题描述 请问这个连接怎么爬取分页数据,找不到连接 这个地址要在ie下浏览才能好用,想用爬虫爬取出最近的数据,但是分页那部分好像已经封装了,请明白人帮忙看看,怎么个思路.http://www.ccgp-liaoning.gov.cn/bulletininfo.do?method=bdetail 解决方案 从请求中可以看到这个参数bulletininfotable_p=1就是分页的

利用twitter api爬取twitter数据有哪些限制?

问题描述 利用twitter api爬取twitter数据有哪些限制? 利用twitter提供的API来爬取twitter数据都有那些限制啊?例如之前每个用户限制一个小时150次可是现在貌似没有这个限制了,不过限速,小弟初学,想请教下,这样爬取twitter数据的官方限制都具体有哪些? 解决方案 http://www.zhihu.com/question/35497572 解决方案二: 从Twitter API采集twitter数据twitter apitwitter api的使用

《数据科学:R语言实现》——2.7 爬取网络数据

2.7 爬取网络数据 在多数情况下,数据并不会存在于数据库中,相反它们以各种形式遍布于互联网上.为了从这些数据源中挖掘更有价值的信息,我们需要知道如何在网络上访问和爬取数据.这里,我们会介绍如何使用rvest程序包从http://www.bloomberg.com/ 上收集财经数据. 准备工作 在本教程中,你需要给开发环境安装R,同时确保计算机可以访问互联网. 实现步骤 执行下列步骤,从http://www.bloomberg.com/ 爬取数据. 1.首先,访问下列链接,浏览彭博商业上的标普5

python爬取网站数据保存使用的方法_python

编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了.问题要从文字的编码讲起.原本的英文编码只有0~255,刚好是8位1个字节.为了表示各种不同的语言,自然要进行扩充.中文的话有GB系列.可能还听说过Unicode和UTF-8,那么,它们之间是什么关系呢?Unicode是一种编码方案,又称万国码,可见其包含之广.但是具体存储到计算机上,并不用这种编码,可以说它起着一个中间人的作用.你可以再把Unicode编码(encode)为UTF-8,或者GB,再存储到计算机

nutch 爬取的数据能用来干什么?

问题描述 用nutch+hadoop+Hbase搭建了一个集群,从互联网上抓取了大量的网页数据.但是不知道这些数据有什么用途?怎么获取有价值的数据?或者说怎么用数据分析的方式挖掘出里面的价值?求指导!!!! 解决方案 解决方案二: 解决方案三:楼主,你有试过CDH+nutch的集成吗?