智能抓取新闻热点—让我们的大脑更轻松

&">nbsp;   学生团队惊艳百度编程马拉松

  新闻事件发生后,经常会有不同的声音,而事件的发展也
往往千回百转,在这个信息爆炸的时代,要想了解一个事件的详细准确的情况,往往需要阅读
大量的文字才能理出脉络,让人很无奈。有没有办法让人简单快速的了解事件的来龙去脉?7月21日,百度hackathon编程比赛(百度编程马拉松)中,复旦大学的三个学生组成的 玛雅"团队开发的
一款"魁地奇阅新闻"解决了这个问题。

百度hackathon编程比赛

  "魁地奇阅新闻"实质是用程序代替了人脑,在庞杂的信息中挖掘出事件的转折点,并自动概括要点,简短而准确地回顾事件的发展历程,为受众快速准确获取信息提供了进一步的便利。玛雅团队的阿拉法特表示,要呈现某个新闻事件的"前世今生"绝非易事,它需要计算机通过学习算法,自动识别新闻事件的重要性,推测事件转折点。玛雅团队也凭"魁地奇阅新闻"在本次的40多支参赛团队中夺得云技术应用奖。

百度hackathon编程比赛北航队

  百度hackathon大赛是由百度开发者俱乐部主办,面向移动互联网应用开发者进行的比赛 ,本次北京的比赛共有41支团队参加,共设四个奖项,其中学生团队表现抢眼,除复旦大学的"魁地奇阅新闻"获得了云技术应用奖外,"北京航空航天大学学生开发的"食库"获得了百度LBS特别奖,北京邮电大学学生开发"绿色云控"获得了软硬件结合特别奖。 本次比赛,学生团队一举拿下百度编程马拉松的六项大奖中的三项,众多参赛团队对学生团队的惊艳表现纷纷表示意外!

  今年以来,百度校园在学生开发者群体中做了大量工作,年初上线的百度开发学习社区是重点支持平台。百度开发学习社区为校园开发者准备了丰富、实用的互联网学习资料,同时为人才的快速成长搭建平台,提供机会。社区分为课程、应用、活动、新闻、技术交流等版块。目前,社区已汇集了众多来自百度、高校的优秀线上课程,并定期发布百度线下开发者培训及活动信息;社区的技术交流区,也已经成为校园开发者技术讨论、组团开发的重要平台;社区已经汇集了300多个学生应用程序,其中不乏超级课程表、安全盒子等热门应用。

  百度开发学习社区还联合国内多所知名高校举办了多次主题新颖、形式多样的应用开发活动和赛事,如 "掌上校园,大咖来秀"校园助手召集大赛、重庆市大学生2013移动应用创新大赛等,都吸引了众多高校技术"大牛"参与其中。

  8月,百度校园还将联合高校推出校园Hackathon应用开发活动。

时间: 2024-09-28 20:50:01

智能抓取新闻热点—让我们的大脑更轻松的相关文章

各位高手们,我想抓取新闻信息到数据库中,求指教

问题描述 各位高手们,我想抓取新闻信息到数据库中,求指教 各位高手们,我想抓取新闻信息到数据库中,求指教,麻烦加我QQ交流一下 解决方案 最好是能用asp能写出来 解决方案二: 可以跟你说说我的思路,后边你可以自己完成: 1.先获取新闻页面的html 代码 2. 通过正则表达式 获取你想要的内容 解决方案三: 百度火车头采集,很好用的采集软件 自己写要分析新闻页面内容,前后截取了,asp下载网页DEMO:asp xmlHttp用法举例 解决方案四: js等抓去html页面内容. 分析DOM类容

java爬虫Gecco工具抓取新闻实例_java

最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象.抓取HTML节点通过像Jquery选择器一样选择节点,非常方便,Gecco代码主要利用注解实现来实现URL匹配,看起来比较简洁美观. 添加Maven依赖 <dependency> <groupId>com.geccocrawler</groupId> <artifactId&

德国力挺谷歌:媒体不得因抓取新闻索赔

[摘要]早前多个欧洲国家的新闻媒体联手对施压,要求谷歌支付新闻使用费. 腾讯科技讯,在互联网上,欧洲国家鲜有创新,但对于美国互联网巨头的打击和限制,却不绝于耳.不过,在几乎所有欧洲国家的新闻媒体,都在要求谷歌(微博)因为抓取.显示 概要必须付费的背景下,上周五,德国政府监管部门,却断然拒绝了德国媒体的这一要求.德国监管部门对于谷歌这一力挺,来 的确实罕见.之前,包括法国.比利时.西班牙等多国的新闻媒体联手对谷歌施压.他们 认为,谷歌新闻搜索和谷歌新闻频道,未经许可抓取了自己的新闻文章,并且在搜索

用nodejs爬虫抓取网页,但提示无Post()函数

问题描述 用nodejs爬虫抓取网页,但提示无Post()函数 使用EXPRESS模块搭建WEB项目. 代码: function transToPost(post){ var mPost = new Post({ title : post.title, link : post.link, description : post.description, pubDate : post.pubDate, source : post.source, author : post.author, typeI

utf8-nodejs抓取正文时乱码和无用标签

问题描述 nodejs抓取正文时乱码和无用标签 正在学习用nodejs抓取新闻,但是在抓取正文这里卡住了. 输出时,输出了一堆乱码+各种标签-- 已解决乱码问题.求解如何去掉里面的无用标签? 检查发现编码 <meta charset="gb2312" /> 求问怎么去掉里面的各种标签并且转换成UTF-8呢? 使用iconv-lite库来转码 request({ url: 'http://news.163.com/15/0405/09/AME6CKER0001124J.htm

善用网页抓取工具,数据轻松收入囊中

数据已走进各行各业并得到了广泛应用,伴随着应用而来的则是对数据的获取和准确挖掘.我们可应用的数据多来自内部资源库以及外部载体,内部数据整合即用,而外部数据却需要先行获取.外部数据的最大载体就是互联网,网页中每天难以数计的增量数据里,就包含着许多对我们有利用价值的信息. 如何最高效地从海量信息里获取数据呢?网页抓取工具火车采集器有高招,以自动化的智能工具代替人工的数据收集,当然更高效也更准确. 一.数据抓取的通用性 作为通用的网页抓取工具,火车采集器基于源代码的操作原理让可抓取的网页类型达到99%

Java爬虫抓取视频网站下载链接_java

本篇文章抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中.这里的测试案例选用了一个我常用的电影下载网站(http://www.80s.la/).本来是想抓取网站上的所有电影的下载链接,后来感觉需要的时间太长,因此改成了抓取2015年电影的下载链接. 一 原理简介 其实原理都跟第一篇文章差不多,不同的是鉴于这个网站的分类列表实在太多,如果不对这些标签加以取舍的话,需要花费的时间难以想象. 分类链接和标签链接都不要,不通过这些链接去爬取其他页面,只通过页底的

Java爬虫实战抓取一个网站上的全部链接_java

前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫. 一 算法简介 程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式进行解析,取出其中未被发现的新链接,加入集合中,待下一次循环时遍历. 具体实现上使用了Map<String, Boolean>,键值对分别是链接和是否被遍历标志.程序中使用了两个Map集

利用正则表达式抓取博客园列表数据_正则表达式

鉴于我在要完成的asp.net MVC 3 仿照博客园企业系统要用到测试数据,我自己输入太累,所以我就抓取了博客园的部分列表数据,还请dudu不要见怪. 在抓取博客园数据的时候采用了正则表达式,所以有不熟悉正则表达式的朋友可以参考相关资料,其实很容易掌握,就是在具体的实例中会花些时间. 现在我就来把我抓取博客园数据的过程叙述一下,如果有朋友有更好的意见,欢迎提出来. 要使用正则表达式抓取数据,首先就要创建一个正则表达式进行匹配,我推荐使用regulator,这个正则表达式工具,我们可以先使用这个