谷歌发布全新TensorFlow库“tf.Transform” 简化机器学习数据预处理过程

在实际的机器学习开发中,开发者通常需要对数据集进行大量的耗时费力的预处理过程,以适应各种不同标准的机器学习模型(例如神经网络)。这些预处理过程根据待解问题的不同和原始数据的组织形式而各不相同,包括不同格式之间的转换,分词、词干提取和形成词汇,以及包括归一化在内的各种数值操作等等。实际上,数据的预处理已经成为了机器学习开发中无法回避的一个难题。

针对这一难题,谷歌于 22 日通过开发者博客正式发布了一个基于 TensorFlow 的全新功能组件 —— tf.Transform。它允许用户在大规模数据处理框架中定义预处理流水线(preprocessing pipelines),同时用户还可以将这些流水线导出,并将其作为 TensorFlow 计算图(TensorFlow graph)的一部分。用户可以通过组合 Python 函数来定义该流水线,然后在 Apache Beam 框架下通过 tf.Transform 执行。(注:Apache Beam 是一个用于大规模的、高效的、分布式的数据处理的开源框架)目前,基于 Apache Beam 框架的流水线可以在 Google Cloud Dataflow 平台上运行,并计划在未来支持更多的平台(可能包括 Apache Apex,Apache Flink 和 Apache Spark 等)。值得一提的是,通过 tf.Transform 导出的 TensorFlow 计算图还可以在模型预测阶段将这种数据预处理步骤复用(例如,通过 Tensorflow Serving 提供模型时)。

另一方面,开发者最终在产品形态运行机器学习模型时通常还会遇到“训练服务偏差”(training-serving skew),即由于服务中处理的数据与模型训练中使用的数据存在一定的差异,从而造成的预测质量下降。

面对这一问题,此次新发布的 tf.Transform 组件还能保证预处理过程的零偏差,即保证服务中的数据预处理和训练中的数据预处理执行完全相同的操作,特别是当模型训练和服务运行在不同的框架时,例如训练在 TensorFlow,服务在 Apache Beam 的情况。

除了便于数据的预处理之外,tf.Transform 还允许用户计算其数据集的统计概要(summary statistics)。对于每个机器学习项目的开发者而言,深刻理解其数据都非常重要,因为任何对底层数据做出的错误假设都可能会产生一些微妙的错误。通过更简单和高效地计算数据的统计概要,tf.Transform 可以帮助开发者更好地检查他们关于原始数据和预处理数据的假设。

最后,谷歌在博客中表示,对于 tf.Transform 的发布他们感到非常激动,他们真诚地希望 tf.Transform 可以帮助 TensorFlow 开发者们更方便地预处理数据,以及更好地理解这些数据。

开源地址:https://github.com/tensorflow/transform

本文作者:恒亮

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-08-17 19:37:39

谷歌发布全新TensorFlow库“tf.Transform” 简化机器学习数据预处理过程的相关文章

谷歌发布全新设计语言Material Design 类界面设计标准

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 [摘要]苹果发布的Swift语言是一款编程语言,是为了降低开发者的门槛,谷歌发布的Material Design语言,更严格来说,更像是一套界面设计标准,二者有着天壤之别. 腾讯科技 孙实 6月26日报道 今日凌晨,谷歌在I/O大会上发布了全新设计语言Material Design.在20多天前的WWDC上,苹果也发布了全新编程语言Swift

谷歌发布 tf.Transform;微软剑桥推出 DeepCoder | AI 研习社周刊

对于AI开发者来说,本周可谓喜讯不断.首先是谷歌发布了全新的 tf.Transform 组件,大大简化了机器学习中的数据预处理问题:同时,从去年秋天开始传闻的 GPU 云端加速服务也终于在谷歌云平台实现了:另外,微软公司联合剑桥大学在最近发布的一篇论文中阐述了一个名为 DeepCoder 的机器学习系统,据介绍,该系统拥有基础编程能力,可以帮助不会写代码的人制作简易程序.最后,我们推荐几个本周内雷锋网出品的"高能"开发者资源合集,祝各位周末愉快. 谷歌发布全新 TensorFlow 库

TalkingData公布移动应用统计分析系统灵动分析 大幅简化数据集成过程

TalkingData正式对外公布了其下一代移动应用统计分析系统--灵动分析.对比此前的各种移动应用统计分析产品,灵动分析的最大特点是大幅简化了数据集成过程,只需在App中加入分析SDK,无需再编写任何代码和更新App版本,即可实现事件跟踪.增删数据点等操作,做到完全零代码数据跟踪.这极大的简化了研发人员工作,同时也能让产品和数据分析人员任何的天马行空数据需求瞬间得到满足,大幅提高运营效率. 零代码,研发人员得解放   灵动分析真正做到"零开发.零代码.云配置.云部署"架构,颠覆了传统

谷歌明日或将发布全新视频平台WebM Project

http://www.aliyun.com/zixun/aggregation/17197.html">北京时间5月19日消息,据国外媒体报道,谷歌或将于明日发布全新视频平台WebM Project,目前尚不清楚该平台的用意所在,但有业内人士推测称该平台将并不局限于视频内容,而有可能用来囊括所有网络内容. 目前登录www.webmproject.org网站只能看到一个写有"建设中"字样的空白页面,从域名注册信息可以查询到该域名在20天前由谷歌注册. 该业内人士同时认为,

谷歌发布Android系统年度安全报告,一半的设备一年都没收到安全更新

   2015年,网络安全机构Zimperium的安全研究人员Joshua Drake披露了Android系统有史以来最严重漏洞--Stagefright.利用这个漏洞,只需简单的一条彩信,黑客就可能完全控制用户手机.据悉,这个漏洞波及了超过9.5亿台Android手机. Stagefright漏洞引发了大众对Android生态系统安全性的关注,谷歌随后开始尝试每个月都对Android设备推送安全更新. 今天(3月23日),谷歌发布了Android系统年度安全报告,全面回顾了2016年在安全方面

Netgear发布全新一代ReadyNAS 搭载6.0系统

[天极网存储频道5月29日消息]本月美国网件宣布发布全新系列的ReadyNAS存储产品,该系列产品的操作系统全面升级为 OS 6系统的.这个革命性的新ReadyNAS 是建立在一个定制平台上全新的产品,秉承"简易部署存储"的理念,面向家庭与中小型企业市场发布.同时,为使用在genie+市场的产品发布了一套新的可下载应用程序. 全新一代Netgear ReadyNAS 得益于全新井然有序的用户界面和一套功能丰富易于下载的嵌入式应用程序,这系列新ReadyNAS 存储将最新的性能表现与高可

谷歌发布强大AI芯片和超算 要转型硬件制造商?

5月18日消息,据technologyreview报道,如果说人工智能(AI)能够迅速蚕食掉软件,那么谷歌可能拥有最大的胃口.在今年的I/O开发者大会上,谷歌发布了更为强大的芯片和以机器学习为基础的超级计算机,它们将有助于谷歌成为以AI为重点的硬件制造商. 谷歌发布强大AI芯片和超算 要转型硬件制造商? 在I/O开发者大会上,谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)介绍了谷歌研发的新计算机处理器,用于支持机器学习技术.近年来,机器学习已经在IT行业掀起强大风暴.此举也反映出快速

谷歌发布Android 4.2 详解果冻豆新特性

Android 4.2是谷歌新一代移动操作系统,它沿用了4.1版"果冻豆"(Jelly Bean)这一名称,与Android 4.1相似性很高,但仍在细节之后做了一些改进与升级,比较重要的包括:Photo Sphere全景拍照:键盘手势输入:Miracast无线显示共享:手势放大缩小屏幕,以及为盲人用户设计的语音输出和手势模式导航功能等. (谷歌发布Android 4.2 支持全景拍照和手势输入) Android 4.2操作系统的亮点是支持行业标准的WiFi显示共享工具Miracast

谷歌发布新网址 可查自家所有免费开源项目

谷歌发布新网站 据科技媒体softpedia北京时间3月30日报道,谷歌发布了一个新网站,在这个网站当中,用户可以查到谷歌多年以来研发的所有免费开源项目. 谷歌公司与开源这一概念有着密切的联系,而谷歌也从未忘记其发展的根源.仅在今年,该公司就开放了iOS版Chrome的源代码,这是一个名为Upspin的新文件共享系统: E2Email,一个实验性的端到端电子邮件加密技术:还有Guetzli JPEG编码器. Google开源项目办公室的软件工程师Will Norris表示,"自谷歌成立以来,免费