node爬取微博的数据的简单封装库nodeweibo使用指南_node.js

一、前言

就在去年12月份,有个想法是使用node爬取微博的数据,于是简单的封装了一个nodeweibo这个库。时隔一年,没有怎么维护,中途也就将函数形式改成了配置文件。以前做的一些其他的项目也下线了,为了是更加专注前端 & node.js。偶尔看到下载量一天超过60多,持续不断的有人在用这个库,但是看下载量很少也就没有更新。但是昨天,有人pull request这个分支了,提出一些中肯的建议和有用的代码。于是就认真回顾了下nodeweibo,发布了v2.0.3这个版本。

二、什么是nodeweibo

nodeweibo:对weibo的API进行简单封装,你可以在Node里使用函数的形式调用微博API。

github项目地址:https://github.com/vczero/node-weibo

我这里截一张markdown的部分截图,具体的大家可以到https://github.com/vczero/node-weibo去看。

安装:npm install nodeweibo

三、支持的API

支持的API:https://github.com/vczero/node-weibo/blob/master/doc/api.md

目前基本支持所有的weiboAPI,以下是部分截图;感谢George Mason University的xizhonghua添加这份md。

四、demo

复制代码 代码如下:

var Weibo = require('../../nodeweibo');    // require('nodeweibo') also works if you have installed nodeweibo via npm
var setting = require('./setting.json');   // get setting (appKey, appSecret, etc.)
/*
+-------------------------------------------------
(1)注册账号:http://open.weibo.com/
(2)在./setting.json中配置您的开发账号。
(3)搞清楚微博的认证机制即oauth2.0认证原理。
(4)第3点很重要,确保你理解这种开放方式。
+-------------------------------------------------
*/
/*
    initialize weibo before using it
 */
Weibo.init(setting);

/*
+-------------------------------------------------
例1:开启微博认证
启动认证后,将在浏览器器打开一个窗口,url中含有code参数
注意:运行其中一个例子时,须注释掉另一个例子。
+-------------------------------------------------
*/
Weibo.authorize();

/*
+--------------------------------------------------
例2:需要获取access_token
(1)阅读微博开放平台API
   如:http://open.weibo.com/wiki/OAuth2/access_token,
   将必要的参数写进jsonParas对象。
(2)在回调中打印出获取的数据
(3)code是您浏览器窗口获得的code。
(4)注意:如运行本例子,请注释掉第1个例子,且code职能调用一次,
        会随着认证不断更新。一个用户一个access_token。
+---------------------------------------------------
*/
// var jsonParas = {
//     code:"the value of your browser's parameter code",
//     grant_type:"authorization_code"
// };
// Weibo.OAuth2.access_token(jsonParas,function(data){
//     console.log(data);
// });

/*
    example 3, get public timeline
 */
// // set parameters
// var para = {
//     "source": Weibo.appKey.appKey,
//     "access_token": 'your access_token here'
// };
// // get public timeline
// Weibo.Statuses.public_timeline(para, function(data){
//     console.log(data);
// });

五:总结

(1)当年发布一个package时,尽量将文档写全点,这样使用者就会更加方便;这是一种态度。

(2)既然有人使用这个package,就尽量花些时间维护这个package,今年年初,就有人问我如何使用的问题。

 (3)学习他人的代码是一种乐趣;体会别人工作的方法是对工作效率的提升。

时间: 2024-09-18 23:15:23

node爬取微博的数据的简单封装库nodeweibo使用指南_node.js的相关文章

爬取微博用户数据

前言 查找的过程 核心 总结 前言 微博数据基本上可以说是社交圈里面最大的了.但是单纯的使用urllib,是不足以获取数据的. 今天来使用Cookie的方式绕开微博权限验证这一关卡, 爬取一下数据. 查找的过程 打开Chrome 的F12之后,刷新页面,真的是眼花缭乱的数据流啊,飞流直下.找了好久,发现大部分数据都是通过JavaScript脚本渲染到页面上的. 这也就是为什么单纯的使用urllib抓不到的原因了.因为这是动态页面,而Urllib则是抓取静态页面.明白了这一点,就找到了方向了. 那

爬取微博数据遇到的问题

问题描述 现在已经能够进行模拟登陆了.为什么只能查看到一个公众人物的相关信息,诸如易中天.王文京.曾志勇等,却不能通过模拟登陆查看到诸如我的同事相关的信息呢?自己真的是想得太简单了,请解决了的.碰到了此问题的帮忙解答下 解决方案 解决方案二:你是通过开放平台爬取微博数据的么?解决方案三:不是,自个写的爬虫,硬爬,没有借助开放的api.解决方案四:引用2楼beijing20120926的回复: 不是,自个写的爬虫,硬爬,没有借助开放的api. 可以拿出来展示,大家研究下~~解决方案五:引用3楼s0

android 爬取手机端数据相关技术解答

问题描述 android 爬取手机端数据相关技术解答 想在公司让做一个android应用程序,就是装在手机端之后可以爬去qq群的聊天记录!小弟现在没有什么头绪!麻烦懂的各位大神提供一下思路! 万分感谢! 解决方案 读取QQ的目录,然后把QQ目录下面的相关文件(这个你要自己分析),也就是聊天记录文件(不排除是数据库),读取到自己的目录或者服务器上,在进行解析就可以了. 解决方案二: 手机上的QQ的聊天记录文件是什么格式,有没有加密?你清楚吗,不清楚这个事情就做不了. 解决方案三: 进入消息管理器,

微博爬虫-求助。用python爬取微博用户的粉丝列表及粉丝的粉丝列表

问题描述 求助.用python爬取微博用户的粉丝列表及粉丝的粉丝列表 急需一份能爬取微博用户的粉丝列表及对应粉丝的粉丝列表搭建一个实验平台,由于自己编程能力太弱,所以希望好心人能给一份相应的python代码(其他语言编写的能运行的也可),在线等,急求! 解决方案 Python:获取新浪微博用户的收听列表和粉丝列表微博粉丝 解决方案二: python爬取糗百 模式不变 改一下正则就可以 也可以用sqllite保存 .正则自己网上看一下就回了 解决方案三: urllib请求页面获取response

求助大神,爬虫爬取京东评论数据爬一小部分(大概100条评论)就爬不到评论了,返回空值了

问题描述 求助大神,爬虫爬取京东评论数据爬一小部分(大概100条评论)就爬不到评论了,返回空值了 python 爬取评论数据,爬到一百多条评论,就返回空值了,无法继续爬下去了 解决方案 用fiddler调试下,看下是不是京东有限制.比如让你过多少时间再访问,或者要你输入验证码. 解决方案二: 如果要爬京东评论,已经有大牛写出很成熟的代码了,推荐大家去看看,专门讲了怎么突破京东的限制:http://blog.csdn.net/youmumzcs/article/details/51396283

url-python爬取LOL盒子数据,如何爬取审查元素?

问题描述 python爬取LOL盒子数据,如何爬取审查元素? 闲来无事,想爬取LOL战绩的队友ID,但是,用beautifulsoup不会抓取URL. 审查元素里面的内容,用urllib2无法抓取出来,正则表达式不太会.刚刚入门,希望得到指导,先谢谢大家了. 解决方案 Python爬取韩寒全部新浪博客 解决方案二: http直接通过url,然后学一下正则吧,很方便就能从页面中得到你想要的东西 解决方案三: urllib2中返回值中有对应数据的话 就是解析xml元素 或者正则字符串查找

简单爬取天眼查数据 附代码

一.常规抓包分析 比如要爬取企业注册信息查询_企业工商信息查询_企业信用信息查询平台_发现人与企业关系的平台-天眼查该页面的基础信息. 通过火狐浏览器抓包,可以发现,所要数据都在下图的json文件里 查看其请求 伪装成浏览器爬取该文件: 伪装成浏览器爬取该文件: import requests header = { 'Host': 'www.tianyancha.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) G

Python实现爬取知乎神回复简单爬虫代码分享_python

看知乎的时候发现了一个 "如何正确地吐槽" 收藏夹,里面的一些神回复实在很搞笑,但是一页一页地看又有点麻烦,而且每次都要打开网页,于是想如果全部爬下来到一个文件里面,是不是看起来很爽,并且随时可以看到全部的,于是就开始动手了. 工具 1.Python 2.7 2.BeautifulSoup 分析网页 我们先来看看知乎上该网页的情况 网址:,容易看到,网址是有规律的,page慢慢递增,这样就能够实现全部爬取了. 再来看一下我们要爬取的内容: 我们要爬取两个内容:问题和回答,回答仅限于显示

用HtmlUnit爬取淘宝数据

问题描述 http://jiuxu.taobao.com/比如我想爬取上面页面的所有宝贝链接如<ahref="http://item.taobao.com/item.htm?spm=a1z10.1.w5003-8452167994.1.fVp17O&id=40416742109&scene=taobao_shop"target="_blank"data-spm-wangpu-module-id="5003-8452167994&quo