雅虎开源解析 HTML 页面数据的 Web 爬取工具 Anthelion


Yahoo 宣布开源解析 HTML 页面结构数据的 Web 爬取工具 Anthelion。

Web 爬行工具是 Yahoo 很重要的核心,甚至超过了其他应用: Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr 和 Tumblr。

上一年在上海的一次会议中,Yahoo 也详细提到了 Anthelion:“Anthelion 最初专注于语义数据,使用标记语言嵌入到 HTML 页面,比如 Microdata,Microformat 或者 RDFa。”这次会议还提到了爬取技术是如何实现的,为什么能提供更高数量的特定搜索查询相关的结果。

Microdata 和 RDFa 是结构数据关于不同主题的语法格式,兼容 schema.org 词汇(一个 Google,Yahoo 和 Bing 搜索引擎都在研究的项目) a project that the Google, Yahoo, and Bing search engines all work on.

Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub:https://github.com/yahoo/anthelion,包含 Apache Nutch 完整源代码。

Anthelion 可以根据设定目标爬取特定页面,比如,包括标记描述影片和至少两个不同属性(比如电影标题和演员)。

via venturebeat.com

====================================分割线================================
文章转载自 开源中国社区[http://www.oschina.net]

时间: 2024-10-27 06:50:23

雅虎开源解析 HTML 页面数据的 Web 爬取工具 Anthelion的相关文章

url-python爬取LOL盒子数据,如何爬取审查元素?

问题描述 python爬取LOL盒子数据,如何爬取审查元素? 闲来无事,想爬取LOL战绩的队友ID,但是,用beautifulsoup不会抓取URL. 审查元素里面的内容,用urllib2无法抓取出来,正则表达式不太会.刚刚入门,希望得到指导,先谢谢大家了. 解决方案 Python爬取韩寒全部新浪博客 解决方案二: http直接通过url,然后学一下正则吧,很方便就能从页面中得到你想要的东西 解决方案三: urllib2中返回值中有对应数据的话 就是解析xml元素 或者正则字符串查找

数据-python 实现爬取网页的审查元素,求大神路过

问题描述 python 实现爬取网页的审查元素,求大神路过 网页源代码只有 JavaScript,没有我想要的数据.只能通过审查元素看到,怎样才能抓取审查元素的内容 暂时用的是selenium,但只能看源代码.求大神路过 解决方案 selenium拿到数据后,用lxml来解析节点,获取你对应的数据 解决方案二: beautifulsoup试试吧.. 解决方案三: 我发现了一个在云上写和运行爬虫的网站,http://www.shenjianshou.cn/.被吓到了,之前就有过这种想法,终于有人帮

SQL Server 解析行溢出数据的存储

  SQL Server2000中最大数据行的大小为8060(我们可以使用的大小为8039),即创建表时所有列的大小总和不能超过8060.在2005中,对于定长的数据,依然保留了这个限制(不过在2005中,我们可以使用的大小为8053,而不是8039).那么在SQL SERVER2005中对于一行是不是只能存储最多8053字节的数据呢?能不能突破8060的这个限制呢? 在SQL SERVER2000中没有办法,但是在SQL SERVER2005中,是有可能的.在SQL SERVER2005使用变

雅虎开源了TensorFlowOnSpark

雅虎开源了TensorFlowOnSpark,数据科学家和工程师们可以直接利用运行于CPU/GPU架构上的Spark或者Hadoop做分布式模型训练.据报道,这个库支持把现有的TensorFlow程序切换到新的API,同时实现了模型训练的性能提升. 在开源公告里,雅虎说明了TensorFlowOnSpark想解决的问题,比如在深度神经网络训练中管理Spark数据管线之外的其他集群带来的运维负载,以网络I/O为瓶颈的数据集在训练集群的传入和传出,令人讨厌的系统复杂性,以及端到端的整体学习时延.Te

php爬虫:知乎用户数据爬取和分析

背景说明:小拽利用php的curl写的爬虫,实验性的爬取了知乎5w用户的基本信息:同时,针对爬取的数据,进行了简单的分析呈现.demo 地址 php的spider代码和用户dashboard的展现代码,整理后上传github,在个人博客和公众号更新代码库,程序仅供娱乐和学习交流:如果有侵犯知乎相关权益,请尽快联系本人删除. 无图无真相 移动端分析数据截图 pc端分析数据截图 整个爬取,分析,展现过程大概分如下几步,小拽将分别介绍 curl爬取知乎网页数据 正则分析知乎网页数据 数据数据入库和程序

php实现爬取和分析知乎用户数据_php实例

背景说明:小拽利用php的curl写的爬虫,实验性的爬取了知乎5w用户的基本信息:同时,针对爬取的数据,进行了简单的分析呈现. php的spider代码和用户dashboard的展现代码,整理后上传github,在个人博客和公众号更新代码库,程序仅供娱乐和学习交流:如果有侵犯知乎相关权益,请尽快联系本人删除. 无图无真相 移动端分析数据截图 pc端分析数据截图 整个爬取,分析,展现过程大概分如下几步,小拽将分别介绍 curl爬取知乎网页数据 正则分析知乎网页数据 数据数据入库和程序部署 数据分析

WEB页面数据导出excel为空白

问题描述 WEB页面数据导出excel为空白的,后台代码跑的能导出数据,这和方法没关系的吧,会不会是主机流量问题.publicvoidtoExcel(HttpServletRequestrequest,HttpServletResponseresponse)/**/throwsException/**/{/*206*/longpk=Long.parseLong(request.getParameter("pk"));/*207*/DBGridInterfacegrid=DBGridIn

Web页面数据导出方法概述之导出excel

前言:随着BS体系结构的广泛使用,相对应的数据保存技术也要改进,对应Web页面,也就是我们通常认识到的HTML文件,由标示关键字与数据混合组成的文件.Web页面数据导出简单地说,就是分离数据与格式,同时保存数据为另外一种格式.正文:分析HTTP Response等文件头信息,对如何处理Web页面非常有用,下面简单地介绍几种常用的方法,算是在技术上学习,非理论上学习.下面的代码分析如何通过修改http头文件,产生excel的文件供用户下载,以达到数据导出的功能.这种非实际在服务器端生成文件的优点就

js读取并解析JSON类型数据的方法_javascript技巧

本文实例讲述了js读取并解析JSON类型数据的方法.分享给大家供大家参考,具体如下: 一.什么是JSON? JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,采用完全独立于语言的文本格式,是理想的数据交换格式,同时,JSON是 JavaScript 原生格式. 非常适合于服务器与 JavaScript 的交互 二.为什么使用JSON而不是XML 他们都是这样说的:尽管有许多宣传关于 XML 如何拥有跨平台,跨语言的优势,然而,除非应用于 Web Ser