有道购物搜索金磊:抓取技术可以更智慧

网易CEO丁磊曾这样解释有道的模式,“‘有道’意味着‘道路’。这是一条连接问题与答案、理想与现实间的最短通路,用户可以从这里迅速而准确地得到所需的答案。”  而为了让用户找到一条购物时的最短通路,有道购物搜索2009年1月便很自然诞生了,让用户通过比价、用户评价、商家配送、支付方式等快速得到购物时的答案,并以返利模式粘附尝到甜头的用户。因此,有道购物搜索也被视为争夺网购入口的先行兵。  门户派的初衷  邮件、游戏、新闻……两年多前,当网易在越来越多地满足用户的多样需求同时,它也通过调研发现了一个问题:很多用户都喜欢在京东(微博)、当当(微博)等大型的网上商城购物,
它们的诚信度高、货品有保证,而当时国内B2C正如火如荼地崛起,对网易来说,电子商务当然不是一块要被忽视的市场。可是,如何切入呢?  “最初,我们想过是不是自己来开店?不过,网易的强项在于对信息的处理,并不擅长电子商务的后期环节,如物流配送、售后等,自行开店不太现实。”网易有道市场总监金磊对南都记者说,网易原有积累的用户在看新闻、玩游戏之外是有购物需求的,怎么满足用户的需求显然是生意的核心。  不过,经网易调查,他们发现只有少数“精明”的网民会直接选择自己固定的B2C商家,比如知道京东商城的电子产品价格有吸引力,而绝大多数网民对B2C网站的认知度很低,在网购前,并没有注意去哪家商城,只得不停地查看比价。“这就成了网易着手推出有道搜索的落点。更重要的是,从商业的可行性来看,只有把网易的强项与电子商务嫁接才行,因此,做一个电子商务的前端入口,即导入比价购物引擎是最现实的。”金磊说。  事实上,当网易在2009年1月正式推出了有道搜索购物引擎后,互联网巨头们都在此领域摩拳擦掌。比如几个月后,微软(微博)就推出了搜索品牌必应,它是“决策引擎”,帮助用户在购物、旅行等方面提供搜索服务以便做出决策。于是,网易的有道搜索,也被看做是一场争夺网购入口的比赛。  用“工具”拉近用户  在与商城合作上,有道购物搜索的做法主要分为两类:与B2C商城直接合作开发后台获得数据,以及主动抓取没有设置门槛的数据。  “比如京东商城,有道购物搜索和它有直接合作的接口,京东可以主动提供数据,包括最新的价格、商品信息变化等,让我们的数据保持及时的更新。”金磊说,目前像京东这样与有道购物搜索合作的B2C商城有700多家。  不过,在主动抓取的商家信息上,有道购物搜索似乎更为“谨慎”,今年初,它选择了与360合作。“价格是影响用户是否消费的关键点,一些不太正规的网站就利用低价吸引用户,结果很可能是用户上当受骗。”金磊说,从良莠不齐、真伪难辨的购物网站中挑选出最便宜的商品,是网购人群最关注的问题,与360联手,便是对有道搜索自行抓取的数据过滤,解决用户网购的安全需求。  当然,和很多购物比价网站一样,有道购物搜索的推广并非一帆风顺,尽管它还背靠着网易这棵大树。比如,怎样找到用户就是其早期遇到的一大挑战。  “可能有人说,直接把网易门户的用户引入有道搜索不就行了么?这可能有些理想化,执行起来不那么容易。”金磊说,用户们那时还没有形成网购前先在某个比价网站比较的习惯,不像要找信息直接上百度那般“理所当然”,有道购物搜索只得主动出击。  今年初,网易有道搜索推出的浏览器小插件“有道购物助手”便是其主动粘附用户的证明。在金磊看来,这个工具的妙处在于把用户“拉近了”。  他说,用户如果比价购物,一般必须先上有道购物搜索网站主页才行,但用户只要简单下载安装有道购物助手后,它会在用户访问浏览商品页面时自动启动。当点开一件商品,购物助手会自动分析当前页面的商品名称,并在浏览器页面下方显示提示条,提示其他网上商城中该商品的价格、运费、商家来源等关键信息,用户可以看到在其他网上商城是否有更低的价格。如果用户点击提示条左侧产品名称或者“更多报价”按钮,会链接至用户评论、专业评测等更多商品信息。  目前,有道搜索购物已积累了150万会员用户。  给比价加“糖”  虽然是国内第一款搜索引擎旗下的购物搜索,进入比价搜索领域的时间较长,但有道购物搜索的商业化路径还有很长的路要走。  “直到目前,盈利问题都不是有道购物搜索考虑的。”金磊说,即便是网站能从B2C等商家的交易中获得分成佣金,但它们还没有形成可观的收入,而是被用于网站建设、推广以及返利给用户,为比价加点“糖”“谈赚钱还太早。”  据金磊介绍,加入网易返现的商家包括京东商城、1号店(微博)、新蛋(微博)网等,涵盖了数码家电、服装鞋帽、美容护肤,以及食品和生活用品等各类商品,它的运作类似“团购”,即有道购物搜索聚集了很多用户去商城“团购”,获得额外折扣,最后实现返现。  返现等待的时间少则十多天,多则几个月,可能是返现模式的通病。有道购物搜索也遇到了这个困惑,而它的应对之法则颇有亮点。和一般的比价返利模式不太相同,有道购物搜索的返利模式有些“冒险”。  “现在,如果确定用户有返利的订单完成,是由我们先行把返利返给用户,然后商家再把返利给有道。”金磊说,这样一来,用户就能在最快时间内获得返利。“这其中,风险是不小,但网站会与商家提前沟通,当然返利的资金量也是在我们能承受的范围之内。”  微波站  网易有道金磊抓取技术可以更智慧  就我手头的数据,两年前国内电子商务的市场,淘宝占据了90%,其他B2C等占了10%,今年的份额,淘宝依然是七八成的份额,处于绝对强势地位。这样一来,就使得整个网上零售市场集中度很高,于是,对像有道购物搜索等的第三方比较购物网而言,成长的路径还很漫长。  未来,包括我们现正在做的,是想让有道购物搜索成为一个平台,因为在网购过程中,很多用户都想得到商家的实用信息,而对商家来说,同样也想得到用户的购物信息,中间缺乏平台。不过,B2C零售市场存在商品信息格式不统一,价格、存货情况等变动性很大,基础的抓取技术很难反映真实的商品状态,需要第三方比价购物网在技术方面持续投入,我们在技术上也有待更优化。  采写:南都记者 刘艳艳  实习生 杜小英

时间: 2024-09-20 08:11:36

有道购物搜索金磊:抓取技术可以更智慧的相关文章

如何用 Python 实现 Web 抓取?

[编者按]本文作者为 Blog Bowl 联合创始人 Shaumik Daityari,主要介绍 Web 抓取技术的基本实现原理和方法.文章系国内 ITOM 管理平台 OneAPM 编译呈现,以下为正文. 随着电子商务的蓬勃发展,笔者近年越来越着迷于比价应用.我在网络上(甚至线下)的每次购买,都是在各大电商网站深入调研后的结果. 笔者常用的比价应用包括:RedLaser, ShopSavvy 以及 BuyHatke.这些应用有效提高了价格透明度,进而为消费者节省了可观的时间. 但是,你是否想过,

如何抓取天猫和淘宝的运营数据?

对通用网站的数据抓取,比如:谷歌和百度,都有自己的爬虫,当然,爬虫也都是有程序写出来的.根据百度百科的定义:网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫.不过,淘宝为了屏蔽网络爬虫对自身数据(例如商品价格.月销量.收藏量.评价.月成交记录等等)的抓取,往往是采取一种名叫Ajax的技术,在网页加载完成后,再次加载这些数据,所以通用的网络爬虫抓取技术对抓取淘宝的这些数据是无效的.针对淘宝

google开始可以抓取框架内容

google开始可以抓取框架内容,这个话在以前会有很多人不相信,可是随着GOOGLE读取和抓取技术的深入 发展,到今天已经是件完全可以的事情! 框架页是什么? 就是使用一个<frame src=http://具体路径></frameset>实现调用其他网站/网页 当你浏览a页包含了<frame src=http://B></frameset>这个时,看见的是B网页 框架型网页优化技巧谈从一开始,框架型网站对于即使是专业的搜索引擎优化也成了一个挑战.是否该用框

维基搜索收购网页的抓取器

中介交易 SEO诊断 淘宝客 云主机 技术大厅 据国外媒体报道,维基百科创始人吉米·威尔斯今年有一个宏大的计划,就是开发开源.开放的搜索引擎维基搜索,这一项目被誉为今年国际互联网的两个黑马产品之一 .周五,威尔斯透露了这一项目的一些进展. 据称,他已经收购了一家拥有抓取技术的公司,另外,维基搜索将依靠成千上万的用户电脑来分布式地抓取网页,而不是构建自己的"蜘蛛"服务器群. 威尔斯表示,他正在把若干个技术模块组建成完整的维基搜索,预计到今年年底,维基搜索将会提供一个公开测试版,这一依靠人

网络爬虫-Jsoup 如何抓取GOOGLE网页数据

问题描述 Jsoup 如何抓取GOOGLE网页数据 网络爬虫新手,以前学过JAVA,所以想用JAVA来做一些数据抓取工作 在网上找的 Jsoup的JAR,试了一下感觉比较容易上手,所以想抓取GOOGLE数据 代码也是网上找的, 但是出现 timeOut,我觉得可能是GOOGLE被屏蔽的问题,我使用Ishadowsock翻墙平时,但是打开以后运货还是timeOut. 不知道各位大神能不能支支招,另外想问一下GOOGLE数据抓取有没有更好一些的开源工具,谢谢万分! Set result = new

最淘网陈华:电商无法屏蔽购物搜索抓取

最淘网CEO陈华 认为,从技术上讲,电商网站根本无法完全屏蔽一淘购物搜索(TechWeb配图)10月28日消息,日前京东.苏宁易购.当当相继屏蔽一淘网的内容抓取,掀起一场电商与购物搜索之间的混战.但网上购物导航促销平台最淘网CEO陈华对TechWeb表示,从技术上来说,电商网站根本无法完全屏蔽一淘购物搜索.陈华称,从技术角度,电商网站根本无法屏蔽一淘等购物搜索网站的抓取.陈华在微博中描述了多种搜索技术与反搜索技术的博弈,他认为,无论电商采取屏蔽蜘蛛 user- agent.屏蔽ip.用图片隐藏价

技术副总罗剑:58同城非法抓取赶集信息达几十万

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 速途网11月19日消息 此前本网记者曾报道,一向标榜国内分类信息行业老大的58同城涉嫌窃取赶集网等众多分类信息网站的内容,获取不正当的浏览量和竞争优势. 今日下午,速途网记者就此事致电赶集网技术副总裁罗剑,其具体表示,58同城从今年7月份开始就通过类似百度爬虫系统,大面积抓取同行的站内信息和数据,为避免爬虫被屏蔽,58同城通过ADSL重拨不断

技术-用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决

问题描述 用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决 用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决 Document doc = Jsoup.parse(new URL(url), 5000); 解决方案 一部分html是ajax异步加载的,你得用fiddler调试,得到这些请求,照着写 解决方案二: C++ 抓取网页的源码获取网页的源码获取网页源码工具类

技术-最近在抓取数据的时候遇到个问题,请问大神如何抓取内容我用的是C#

问题描述 最近在抓取数据的时候遇到个问题,请问大神如何抓取内容我用的是C# <html><head><link title="将较长的行自动换行" href="resource://gre-resources/plaintext.css" type="text/css" rel="alternate stylesheet"></head><body><pre&g