解密app大数据是如何获取的——以科技工社为例

近年来,以智能手机为代表的移动终端的生产、消费量迅猛增加,这带动了移动互联网产业的高速发展,因而移动互联网被越来越受到重视。就在这样的时代背景下,各种app如雨后春笋般涌现出来,由于app可以实现各种各样的功能,且方便实用,受到移动终端用户的欢迎。

在智能手机上人们通常除了安装社交app之外,大部分用户还可能会安装资讯类app,如今日头条、一点资讯、搜狐新闻客户端等等。资讯类app中的新闻资讯一般即时性较强,而且这些资讯类app中的资讯绝大部分都是来自与其他资讯网站,那么他们是怎么实现app海量信息的更新的呢?这就涉及到app的大数据获取。

显然,人工手动发布是不太现实的,除非是独家发布的资讯。那么以大数据方式是如何获取大量资讯的呢?下面以科技工社为例来简单说明这个问题。

目前科技资讯app在国内市场上可谓凤毛麟角,科技工社是笔者比较了解的一款科技资讯类app,且目前也只有ios版本。其大部分资讯的获取方式与今日头条、一点资讯类似,就是利用爬虫进行爬取。

具体方法就是在多台服务器上同时部署爬虫程序,配置不同的爬虫调用同一数据库,使用多台服务器是为了提高爬取数据的速度,调用同一数据库可以避免不同服务器间的爬虫重复工作。接下来,就是在app的人工管理后台配置目标网站的种子信息,包括一些基本信息、URL过滤规则和文本过滤规则等。

配置种子信息时可以设置成无需人工审核,这时候如果目标网站新的数据更新,那么爬虫爬取数据过来之后就自动发布到app上,无需人工操作。而且由于爬虫是部署在服务器组上的,所以工作效率都比较高,可以实现海量数据的实时处理。

除此之外,编辑人员也可以手工发布一些在互联网媒体上没有的资讯或外国媒体上的资讯。
如今,新闻资讯类app大数据的获取在技术上已经十分成熟。然而,对我们这些好奇的普通读者而言,可能觉得很神秘。其实,当你真正了解一项技术的时候便不觉得神秘。

本文转载自王军礼的微信号(wangjunliwx)。

时间: 2024-09-30 15:35:48

解密app大数据是如何获取的——以科技工社为例的相关文章

科技工社给我的几点感受:以大数据引擎的助力科研社交

在当今互联网时代,对科技工作来说,通过互联网把握前沿科技动态显得越来越重要,不久前各专业领域的科技资讯平台app科技工社悄然上线,作为科技工作者的笔者首先注意了这一手机软件的潜力.细说其资讯领域包含了信息技术.航空航天.机器人.新材料.节能环保.生物医疗.轨道交通等行业领域实时资讯,可以帮助科研工作者获取在应用技术方面专业情报.对科研工作者来说是一个很不错的平台. 它与如今的今日头条和一点资讯有较大区别,分别从以下几点说明: 专业科技资讯实时精准推送 聚合全球海量科技资讯,运用大数据推荐引擎技术

赵国栋:解密中关村大数据产业联盟

短短一年时间,圈内似乎无人不知无人不晓中关村大数据产业联盟(简称联盟).华为公司历史上从未参与任何的协会.联盟组织,但是一个月前,找到中关村管委会,要求申请加入联盟.华大基因董事长汪健老师,与联盟相见恨晚,春节后上班第一天就到联盟总部--"小院"来喝茶,联盟计划在4月份回访汪老师,顺便敲定入会和一些合作的事情. 一年以来,联盟已经成立或者筹备成立的专业委员会有十几个:已经挂牌或者实际运作的地方分会近十家,包括硅谷分会:免费的企业会员逾500家,收费会员30+.除了上文提到的华为.华大,

大数据时代轻易获取知识的利弊

美国哈佛大学伯克曼互联网与社会中心的资深研究员戴维·温伯格新著<知识的边界>(中文版译者胡泳.高美,山西人民出版社出版),围绕大数据时代的知识等一系列问题展开了深层次的探讨和反思. 书籍报刊中的知识凝聚着专业人士的智慧,更具价值 本书中,温伯格对于大数据时代的知识进行了不同层面.不同维度的分析和梳理.他认为,印刷时代的知识是静态.单向度.线性的传播方式,而大数据时代的知识则恰恰相反.美国云计算之父马克·贝尼奥夫认为,大数据时代的知识具有社交性.流动性.开放性的特征.而温伯格则在书中一语中的:&

华为科学家解密:大数据是商业炒作吗? 未来技术趋势是什么?

作者:杨强,华人界首个国际先进人工智能协会(AAAI)院士:华为诺亚方舟实验室主任, 香港科技大学计算机系教授: ACM杰出科学家.下面是杨强对大数据行业三个热门问题的解答. 我第一次听到"大数据"这个词是2011年在新加坡举行的一次美国科学院大数据讨论会.因数据采集费用的急剧下降,导致大量数据的产生,这一现象首次成为关注焦点.当时对数据的急剧增长意味着什么没有统一看法, 唯一认可的就是把这一现象命名为"大数据". 今天,各行各业对大数据的理解各不相同.电信行业对&

解密国产大数据法律应用服务平台

"2008年我们团队去美国考察学习Westlaw平台,在著名的法律资讯商汤姆森集团总部待了两个星期.坦白说,确实挺受刺激地回来了."如今,人民法院电子音像出版社副社长张承兵可以平心静气,"现在我们敢说,法信平台具备了国际竞争力,在很多方面跟Westlaw不相上下". 张承兵所说的"法信",是由他参与研发运营的中国法律应用数字网络服务平台.而法信能够媲美国际先进的法律资讯平台,裁判剖析大数据引擎(LD)和同案智推大数据引擎(SP)技术功不可没. 大

社保大数据哪里可以获取

问题描述 正在开发一个B2B的一个应用,客户有个要求能让员工通过应用查社保情况,哪位大侠知道可以通过webservice去调用的社保数据资源?谢谢! 解决方案 解决方案二:可以咨询下相关社保部门有没有提供呀解决方案三:聚合数据有接口

大数据除了Hadoop,还有Scrapy

一.先来扯扯大数据 互联网+概念的兴起,中国的创业者几乎把互联网+这趟车开进了所有领域,传统领域的商家人心惶惶,言必谈互联网+,仿佛不套点互联网的概念都不好意思宣传自家产品;而赶在这波潮流之前的正是燥热至今的" 大数据 ". 在这个上到各界研究机构.管理部门.企业,下到各大论坛.媒体.甚至商贩都能跟你聊"大数据",你是不是觉得不拽点词儿都不敢出门. 可谁真正解析大数据背后的含义?从早期依赖结构化数据库的挖掘分析发展到现今海量.多源.非结构数据需要依赖并行算法才能解决

如何让隐藏在大数据背后的价值发挥出来?

对于普通人来说,大数据离我们的生活很远,但它的威力已无所不在:信用卡公司追踪客户信息,能迅速发现资金异动,并向持卡人发出警示;能源公司利用气象数据分析,可以轻松选定安装风轮机的理想地点;瑞典首都斯德哥尔摩使用运算程序管理交通,令市区拥堵时间缩短一半--这些都与大数据有着千丝万缕的关系. 牛津大学教授维克托·迈尔-舍恩伯格在其新书<大数据时代>中说,这是一场"革命",将对各行各业带来深刻影响,甚至改变我们的思维方式,但同时它也引发"数据暴政"的担忧. 如今

无处不数据的时代 三大运营商如何变现大数据价值?

5月18日消息,昨天是世界电信日,其主题是"发展大数据,扩大影响力". 其实我们已经处在了无处不数据的时代,但大数据的发展才刚刚开始,城市中的数据利用率仅为0.4%,且大部分数据还在政府手里或者各个角落闲置.拿电信运营商本身,价值数千亿的数据尚未得到变现. 运营商既是大数据的拥有者,又是大数据技术的拥有者,同时可以面向各类用户提供大数据的应用服务.三大运营商也纷纷规划大数据发展步骤,逐渐将数据价值变现. 中国电信:大数据2+31模式 2013年中国电信着手布局大数据业务,坚持深化挖掘应