俄罗斯最大搜索引擎Yandex开源了一款梯度提升机器学习库CatBoost



现在,人工智能正在为越来越多的计算功能提供支持,今天,俄罗斯搜索巨头Yandex宣布,将向开源社区提交一款梯度提升机器学习库CatBoost。它能够在数据稀疏的情况下“教”机器学习。特别是在没有像视频、文本、图像这类感官型数据的时候,CatBoost也能根据事务型数据或历史数据进行操作。

今天,CatBoost以两种方式进行了亮相。

首先,Yandex宣布,将在自有服务中使用这款新的框架替换原来的机器学习算法MatrixNet。MatrixNet一直被应用在公司的很多业务上,比如排名、天气预报、出租车和推荐业务。现在,业务正在逐步从MatrixNet切换到CatBoost上来,并将延续几个月。

其次,Yandex将免费提供CatBoost库,任何希望在自己的程序中使用梯度提升技术的人员都可以在Apache许可证下使用这个库。 Yandex机器智能研究主管Misha Bilenko在接受采访时表示:“CatBoost是Yandex多年研究的巅峰之作。我们自己一直在使用大量的开源机器学习工具,所以是时候向社会作出回馈了。” 他提到,Google在2015年开源的Tensorflow以及Linux的建立与发展是本次开源CatBoost的原动力。

Bilenko补充说到,暂时还没有计划将CatBoost商业化,或以任何专利的形式将其闭源。 “这和竞争对手无关,”他说,“我们很高兴有竞争对手使用它”

长期以来,随着Yandex的不断发展,它一直在寻求提升俄语世界之外的国际地位。本次开源举动不仅仅是Yandex对开源社区的承诺,而且也展示了Yandex希望成为大型科技公司与开发者社区发展中心的决心。

就像Google持续地扩展和更新Tensorflow一样,今天的CatBoost版本是其第一个版本,以后将持续更新迭代。目前,这个库主要有三个特点:

“减少过度拟合”:这可以帮助你在训练计划中取得更好的成果。它基于一种构建模型的专有算法,这种算法与标准的梯度提升方案不同。

“类别特征支持”:这将改善你的训练结果,同时允许你使用非数字因素,“而不必预先处理数据,或花费时间和精力将其转化为数字。”

“API​​接口支持”:可以通过命令行或者基于Python或R的API接口来使用CatBoost,包括公式分析和训练可视化工具。

虽然目前有大量的库可以利用梯度提升或其他解决方案来训练机器学习系统,但Bilenko认为,CatBoost相较其他大型公司使用的框架(如Yandex)的最大优点是测试精准度高。

“有很多机器学习库的代码质量比较差,需要做大量的调优工作,”他说,“而CatBoost只需少量调试,就可以实现良好的性能。这是一个关键性的区别。”

附CatBoost开源代码地址: https://catboost.yandex/

文章原标题《Yandex open sources CatBoost, a gradient boosting machine learning library》,作者:Ingrid Lunden,译者:夏天,审校:主题曲。

文章为简译,更为详细的内容,请查看原文

时间: 2024-10-30 05:16:52

俄罗斯最大搜索引擎Yandex开源了一款梯度提升机器学习库CatBoost的相关文章

【开源】北大团队大规模稀疏数据机器学习库xLearn,c++ trending 已超TensorFlow

该项目由肖臻教授和马超博士合作完成. 肖臻教授 美国康奈大学博士 之前任美国AT&T 和 IBM 科学家.研究方向分布式系统和机器学习.在国际顶级刊物发表论文60余篇,论文引用超过4000次. 马超,北大云计算课题组博士生,研究方向分布式系统与大规模机器学习.同时担任亚马逊AWS 应用科学家实习生,负责MXNet 分布式性能优化. 目前在c++ trending 上,xLearning已经超过 tensorflow 马超在微博上介绍: 在机器学习里,除了深度学习和树模型 (GBDT, RF) 之

俄罗斯搜索引擎Yandex称将在海外挑战谷歌

北京时间10月20日上午消息,俄罗斯搜索引擎Yandex将在土耳其等新兴市场挑战谷歌,以此对抗谷歌对其本土市场的入侵. Yandex创始人兼CEO阿卡迪·沃罗兹(ArkadyVolozh)周五表示,该公司有可能借助自己的技术拓展新的国家和地区,但不排除通过收购和合作交易来部署这一计划. "我们的重点是谷歌占据主导地位.拥有90%以上份额的市场."沃罗兹说.他还补充道,Yandex将对用户强调一家独大的危害. Yandex目前把精力放在土耳其,自从去年进军该市场以来,这款产品勉强维持1%

俄罗斯搜索引擎Yandex与谷歌签广告合作协议

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 2月26日消息,据路透社报道,俄罗斯最大的搜索引擎Yandex表示,已与谷歌建立合作伙伴关系,允许对方的客户使用自己的广告存货. 按照协议,谷歌的广告客户将可使用Yandex广告网络出版商提供的广告存货,而Yandex的广告客户也可在谷歌的实时竞价市场DoubleClick AdExchange竞价购买显示广告. Yandex发表声明称,这种

俄罗斯搜索引擎Yandex联手Rambler打压谷歌

新浪科技讯 北京时间6月23日晚间消息,俄罗斯搜索引擎Yandex和在线媒体巨头Rambler今日宣布,双方将在搜索和广告领域展开合作. 从本周四起,Rambler的搜索服务将由Yandex提供,而Rambler将加盟Yandex的广告网络Yandex.Direct.当前Odnoklassniki.Mail.ru和Bing.com等均为Yandex的广告网络成员,而使用Yandex搜索技术的网站包括Livejournal.ru.Nigma.ru和Qip.ru等. 根据合作协议,通过Yandex.

俄最大搜索引擎Yandex收购最大俄语电影评论网站

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 俄罗斯互联网集团Yandex周二表示,已收购最大的俄语电影网站KinoPoisk,以进一步加强其搜索业务.Yandex是俄罗斯最大的搜索引擎,在该国市场份额超过60%,远超全球最大搜索引擎谷歌,其大部分收入来自文本广告. Yandex将合并KinoPoisk的团队,但该服务和当前域名kinopoisk.ru依然保留.协议的金额等条款未披露.K

即将赴美上市的俄罗斯网络公司Yandex周一上调了其IPO价格

据国外媒体报道,即将赴美上市的俄罗斯网络公司Yandex周一上调了其IPO价格,原因是社交网站LinkedIn上周IPO上市后引发了投资者的极大热情和投资需求. Yandex经营着俄罗斯最流行的搜索引擎,它原计划的IPO价格区间为20美元到22美元.据知情人士透露,Yandex已经将IPO价格区间上调至24美元到25美元.预计Yandex最终的IPO价格将在周一美国股市收盘后确定. 按照最新IPO价格计算,Yandex将成为继谷歌2004年IPO之后募资规模最大的互联网公司.业内分析师认为,Ya

Seo Panel 3.0.0发布 搜索引擎优化开源工具

Seo Panel 3.0.0此版本已支持17种语言,SEO审计工具,和许多新的功能.现场审核通过每一个网站每一页的审计SEO因素的页面抓取.然后,它会提供一个详细的报告,针对每个页面的SEO细节.它也将在该网站中找出重复的页面标题,meta描述和关键字.它可以创建XML,HTML或文本http://www.aliyun.com/zixun/aggregation/9103.html">Sitemap文件提交给搜索引擎. Seo Panel是一个搜索引擎优化开源工具.它包含了许多SEO工具

盘点:为 Java 开发者量身定制的五款机器学习库

Weka 地址:http://www.cs.waikato.ac.nz/ml/weka/index.html  毫无疑问,Weka 是目前首选的 Java 机器学习库. 它由新西兰怀卡托大学(University of Waikato)的机器学习项目组研发.其命名来源于一种新西兰特有的不会飞的鸟--新西兰秧鸡,新西兰秧鸡的英文名称就是 Weka.按照官网描述,Weka 吸收了许多目前常用的机器学习算法,并且完全基于 Java 环境,开源,免费,具有易于使用的图形界面,适合于数据挖掘,数据分析和预

Legion是一款能提升手机充电速度的外置设备

还在为临时出门却发现手机电量不足而苦恼么?即便随身携带着移动电源,但固定的充电时间还是让手机摆脱不了对数据线的纠缠.在Kickstarter上一款名为Legion的产品可能会让你眼前一亮. Legion是一款能提升手机充电速度的外置设备,它内置了一个USB万用表,可在OLED显示屏上显示出电压.电流.功率和毫瓦小时数等信息.它最大的特色就是能为智能手机和平板电脑提升近92%的充电速度. Legion采用了PLX电荷加速电路专利,这项专利在手机.汽车以及电子设备上获得了广泛的应用.电荷加速电路分为