近年来,以智能手机为代表的移动终端的生产、消费量迅猛增加,这带动了移动互联网产业的高速发展,因而移动互联网被越来越受到重视。就在这样的时代背景下,各种app如雨后春笋般涌现出来,由于app可以实现各种各样的功能,且方便实用,受到移动终端用户的欢迎。
在智能手机上人们通常除了安装社交app之外,大部分用户还可能会安装资讯类app,如今日头条、一点资讯、搜狐新闻客户端等等。资讯类app中的新闻资讯一般即时性较强,而且这些资讯类app中的资讯绝大部分都是来自与其他资讯网站,那么他们是怎么实现app海量信息的更新的呢?这就涉及到app的大数据获取。
显然,人工手动发布是不太现实的,除非是独家发布的资讯。那么以大数据方式是如何获取大量资讯的呢?下面以科技工社为例来简单说明这个问题。
目前科技资讯app在国内市场上可谓凤毛麟角,科技工社是笔者比较了解的一款科技资讯类app,且目前也只有ios版本。其大部分资讯的获取方式与今日头条、一点资讯类似,就是利用爬虫进行爬取。
具体方法就是在多台服务器上同时部署爬虫程序,配置不同的爬虫调用同一数据库,使用多台服务器是为了提高爬取数据的速度,调用同一数据库可以避免不同服务器间的爬虫重复工作。接下来,就是在app的人工管理后台配置目标网站的种子信息,包括一些基本信息、URL过滤规则和文本过滤规则等。
配置种子信息时可以设置成无需人工审核,这时候如果目标网站新的数据更新,那么爬虫爬取数据过来之后就自动发布到app上,无需人工操作。而且由于爬虫是部署在服务器组上的,所以工作效率都比较高,可以实现海量数据的实时处理。
除此之外,编辑人员也可以手工发布一些在互联网媒体上没有的资讯或外国媒体上的资讯。
如今,新闻资讯类app大数据的获取在技术上已经十分成熟。然而,对我们这些好奇的普通读者而言,可能觉得很神秘。其实,当你真正了解一项技术的时候便不觉得神秘。
本文转载自王军礼的微信号(wangjunliwx)。