学习笔记TF062:TensorFlow线性代数编译框架XLA

XLA(Accelerated Linear Algebra)，线性代数领域专用编译器(demain-specific compiler)，优化TensorFlow计算。即时(just-in-time,JIT)编译或提前(ahead-of-time,AOT)编译实现XLA，有助于硬件加速。XLA还在试验阶段。https://www.tensorflow.org/versions/master/experimental/xla/ 。

XLA优势。线性代数领域专用编译器，优化TensorFlow计算的执行速度(编译子图减少生命周期较短操作执行时间，融合管道化操作减少内存占用)、内存使用(分析、规划内存使用需求，消除许多中间结果缓存)、自定义操作依赖(提高自动化融合底层操作low-level op性能，达到手动融合自定义操作custom op效果)、移动端内存占用(提前AOT编译子图减少TensorFlow执行时间，共享头文件对被其他程序直接链接)、可移植性方面(为新硬件开发新后端，TensorFlow不需要更改很多代码用在新硬件设备上)。

XLA工作原理。LLVM编译器框架系统，C++编写，优化任意编程语言缩写程序编译时间(compile time)、链接时间(link time)、运行时间(run time)、空闲时间(idle time)。前端解析、验证、论断输入代码错误，解析代码转换LLVM中间表示(intermdediate representation,IR)。IR分析、优化改进代码，发送到代码生成器，产生本地机器代码。三相设计LLVM实现。最重要，LLVM IR。编译器IR表示代码。C->Clang C/C++/ObjC前端、Fortran->llvm-gcc前端、Haskell->GHC前端 LLVM IR-> LLVM 优化器 ->LLVM IR LLVM X86后端->X86、LLVM PowerPC后端->PowerPC、LLVM ARM后端->ARM。http://www.aosabook.org/en/llvm.html 。
XLA输入语言HLO IR，XLA HLO定义图形，编译成各种体系结构机器指令。编译过程。XLA HLO->目标无关优化分析->XLA HLO->XLA后端->目标相关优化分析->目标特定代码生成。XLA首先进行目标无关优化分析(公共子表达式消除common subexpression elimination CSE，目标无关操作融合，运行时内存缓冲区分析)。XLA将HLO计算发送到后端。后端执行进一步HLO级目标不相关优化分析。XLA GPU后端执行对GPU编程模型有益操作融合，确定计算划分成流。生成目标特定代码。XLA CPU、GPU后端用LLVM中间表示、优化、代码生成。后端用LLVM IR表示XLA HLO计算。XLA 支持x86-64､NVIDIA GPU JIT编译，x86-64､ARM AOT编译。AOT更适合移动、嵌入式深度学习应用。

JIT编译方式。XLA编译、运行TensorFlow计算图一部分。XLA 将多个操作(内核)融合到少量编译内核，融合操作符减少存储器带宽提高性能。XLA 运行TensorFlow计算方法。一，打开CPU、GPU设备JIT编译。二，操作符放在XLA_CPU、XLA_GPU设备。
打开JIT编译。在会话打开。把所有可能操作符编程成XLA计算。

config = tf.ConfigProto()
config.graph_options.optimizer_options.global_jit_level = tf.OptimizerOptions.ON_1
sess = tf.Session(config=config)

为一个或多个操作符手动打开JIT编译。属性_XlaCompile = true标记编译操作符。

jit_scope = tf.contrib.compiler.jit.experimental_jit_scope
x = tf.placeholder(np.float32)
with jit_scope():
  y = tf.add(x, x)

操作符放在XLA设备。有效设备XLA_CPU、XLA_GPU：

with tf.device("/job:localhost/replica:0/task:0/device:XLA_GPU:0"):
  output = tf.add(input1, input2)

JIT编译MNIST实现。https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax_xla.py 。
不使用XLA运行。

python mnist_softmax_xla.py --xla=false

运行完成生成时间线文件timeline.ctf.json，用Chrome跟踪事件分析器 chrome://tracing，打开时间线文件，呈现时间线。左侧列出GPU，可以看操作符时间消耗情况。
用XLA训练模型。

TF_XLA_FLAGS=--xla_generate_hlo_graph=.* python mnist_softmax_xla.py

XLA框架处于试验阶段，AOT主要应用场景内存较小嵌入式设备、手机、树莓派。

from future import absolute_import
from future import division
from future import print_function
import argparse
import sys
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
from tensorflow.python.client import timeline
FLAGS = None
def main(_):
  # Import data
  mnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=True)
  # Create the model
  x = tf.placeholder(tf.float32, [None, 784])
  w = tf.Variable(tf.zeros([784, 10]))
  b = tf.Variable(tf.zeros([10]))
  y = tf.matmul(x, w) + b
  # Define loss and optimizer
  y_ = tf.placeholder(tf.float32, [None, 10])
  # The raw formulation of cross-entropy,
  #
  #   tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(tf.nn.softmax(y)),
  #                                 reduction_indices=[1]))
  #
  # can be numerically unstable.
  #
  # So here we use tf.nn.softmax_cross_entropy_with_logits on the raw
  # outputs of 'y', and then average across the batch.
  cross_entropy = tf.reduce_mean(
      tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y))
  train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
  config = tf.ConfigProto()
  jit_level = 0
  if FLAGS.xla:
    # Turns on XLA JIT compilation.
    # 开启XLA JIT编译
    jit_level = tf.OptimizerOptions.ON_1
  config.graph_options.optimizer_options.global_jit_level = jit_level
  run_metadata = tf.RunMetadata()
  sess = tf.Session(config=config)
  tf.global_variables_initializer().run(session=sess)
  # Train
  # 训练
  train_loops = 1000
  for i in range(train_loops):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    # Create a timeline for the last loop and export to json to view with
    # chrome://tracing/.
    # 在最后一次循环创建时间线文件，用chrome://tracing/打开分析
    if i == train_loops - 1:
      sess.run(train_step,
               feed_dict={x: batch_xs,
                          y_: batch_ys},
               options=tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE),
               run_metadata=run_metadata)
      trace = timeline.Timeline(step_stats=run_metadata.step_stats)
      with open('timeline.ctf.json', 'w') as trace_file:
        trace_file.write(trace.generate_chrome_trace_format())
    else:
      sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
  # Test trained model
  correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
  accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
  print(sess.run(accuracy,
                 feed_dict={x: mnist.test.images,
                            y_: mnist.test.labels}))
  sess.close()
if name == '__main__':
  parser = argparse.ArgumentParser()
  parser.add_argument(
      '--data_dir',
      type=str,
      default='/tmp/tensorflow/mnist/input_data',
      help='Directory for storing input data')
  parser.add_argument(
      '--xla', type=bool, default=True, help='Turn xla via JIT on')
  FLAGS, unparsed = parser.parse_known_args()
  tf.app.run(main=main, argv=[sys.argv[0]] + unparsed)

参考资料：
《TensorFlow技术解析与实战》

欢迎推荐上海机器学习工作机会，我的微信：qingxingfengzi

时间： 2024-11-05 12:10:36

学习笔记TF062:TensorFlow线性代数编译框架XLA的相关文章

学习笔记TF067:TensorFlow Serving、Flod、计算加速，机器学习评测体系，公开数据集

TensorFlow Serving https://tensorflow.github.io/serving/ . 生产环境灵活.高性能机器学习模型服务系统.适合基于实际数据大规模运行,产生多个模型训练过程.可用于开发环境.生产环境. 模型生命周期管理.模型先数据训练,逐步产生初步模型,优化模型.模型多重算法试验,生成模型管理.客户端(Client)向TensorFlow Severing请求模型,TensorFlow Severing返回适当模型给客户端.TensorFlow Serving

学习笔记TF066:TensorFlow移动端应用，iOS、Android系统实践

TensorFlow对Android.iOS.树莓派都提供移动端支持. 移动端应用原理.移动端.嵌入式设备应用深度学习方式,一模型运行在云端服务器,向服务器发送请求,接收服务器响应:二在本地运行模型,PC训练模型,放到移动端预测.向服务端请求数据可行性差,移动端资源稀缺.本地运行实时性更好.加速计算,内存空间和速度优化.精简模型,节省内存空间,加快计算速度.加快框架执行速度,优化模型复杂度和每步计算速度. 精简模型,用更低权得精度,量化(quantization).权重剪枝(weight pru

学习笔记TF064:TensorFlow Kubernetes

AlphaGo,每个实验1000个节点,每个节点4个GPU,4000 GPU.Siri,每个实验2个节点,8个GPU.AI研究,依赖海量数据计算,离性能计算资源.更大集群运行模型,把周级训练时间缩短到天级小时级.Kubernetes,应用最广泛容器集群管理工具,分布式TensorFlow监控.调度生命周期管理.容器集群自动化部署.扩容.运维开源平台,提供任务调度.监控.失败重启.TensorFlow.Kubernetes都是谷歌公司开源.https://kubernetes.io/ .谷歌云平台

【PMP】Head First PMP 学习笔记第三章过程框架

第三章过程框架项目中完成的所有工作都由过程构成. 项目中的完成的所有工作都有一个模式(pattern).先计划,再去做.工作时,总是对项目与原先的计划进行比较.如果开始偏离计划,就要由你做出矫正,让一切重新走上正轨.过程框架--过程租和知识领域--正式这一切顺利完成的关键. 分阶段管理分阶段,项目的每个阶段(phase)都会经过5个过程租,从启动到收尾,项目的多个阶段就会存在各种关联关系顺序关系(sequenital relationship).多个阶段相继发生并不存在重叠,每个阶段在前

J2EE学习笔记(4) 软件工程与系统框架

J道的老大banq曾经说过设计模式是衡量一个程序员水平高低最重要的标准.个人非常赞同这个观点,从这个角度看学好J2EE第一个要了解的就是作为一个庞大复杂的系统,它是如何由各个模块拼装并协同有效地运作.先来几个定义暖暖身 Definitions of Different Dimensions in J2EE Tiers: A logical or physical organization of components into an ordered chain of service provide

thinkphp学习笔记3—项目编译和调试模式

原文:thinkphp学习笔记3-项目编译和调试模式 1.项目编译在章节2.4项目编译中作者讲到使用thinkphp的项目在第一次运行的时候会吧核心需要加载的文件去掉空白和注释合并到一个文件中编译并缓存,第二次运行时直接载入编译缓存,这样省去一些IO开销,加快执行速度.并且在3.0以上的版本中海做了一些优化: 1.合并和兴编译缓存和项目编译缓存,不再生成两个缓存文件 2.直接对本地环境生成设置和常量定义减少环境判断 3.编译缓存可以直接替换框架入口甚至项目入口,甚至脱离框架独立运行 4.通过参

mybatis学习笔记之基础框架（2）

mybatis学习笔记之基础框架(2) mybatis是一个持久层的框架,是apache下的顶级项目. mybatis让程序将主要精力放在sql上,通过mybatis提供的映射方式,自由灵活生成满足sql语句 mybatis可将向prparedStatement中的输入参数自动进行输入映射,将查询结果集灵活映射成java对象.(输出映射) SqlMapConfig.xml(是mybatis的全局配置文件,名称不固定) 配置了数据源/事务等mybatis运行环境配置映射文件(配置sql语句) m

CI框架学习笔记（二） -入口文件index.php_php实例

上一节(CI框架学习笔记(一) - 环境安装.基本术语和框架流程)中,我们提到了CI框架的基本流程,这里再次贴出流程图,以备参考: 作为CI框架的入口文件,源码阅读,自然由此开始.在源码阅读的过程中,我们并不会逐行进行解释,而只解释核心的功能和实现. 1. 设置应用程序环境 define('ENVIRONMENT', 'development'); 这里的development可以是任何你喜欢的环境名称(比如dev,再如test),相对应的,你要在下面的switch case代码块中,对设定的环

【深度学习笔记】（二）Hello, Tensorflow!

[深度学习笔记](二)Hello, Tensorflow! 一.安装官方安装的方式很多种,本文采用Docker方式.Docker的深入使用文案很长很多,但我们都不需要,我们的主要目的还是Tensorflow,所以只需要基本的使用即可.PS:打开Tensorflow官网是需要翻墙的,所以上面的一些链接不能翻墙的情况下是打不开的,然鹅!Docker不需要翻墙就能打开,所以用Docker来安装Tensorflow就是为了绕墙而走. 1.Docker安装既然不用翻墙,首先就是点我下载安装包,打开页面

猜你喜欢

左旋肉碱淘宝客网站SEO好了也是浮云

我做网站和网站采集软件很多年了,以前从来没有做过淘宝客网站,只知道有这样一个东西,但凭直觉感觉从里面赚很多钱不太可能,顶多也就是赚些毛毛钱.去年左旋哥的文章出来后,我也深受其文章鼓舞,也不能免俗的投身 ...

客户端更新定义数据(Definition)的方案比较

一.问题/需求场景: 客户端展示来自服务端的数据: 数据项(Item)有很多,并且可能增.减: 每个数据项的定义(Definition)也可能变化数据(Data)的展示将依据它的定义分析: 尽管 ...

如何显示Word 2013文档正文边框

通过在Word2013文档中显示正文边框,可以帮助用户更准确地判断文档内容在Word文档页面中的位置.显示正文边框的步骤如下所述: 第1步,打开Word2013文档窗口,依次单击"文件&qu ...

漫话ID（下）——“自定义ID”以帮助定位自定义控件（实例和应用）

在前面的两篇文章<漫话ID(上)--Name和ID的种种> 和<漫话ID(中)--UniqueID和ClientID>中,我们讨论了关于ID的一些内容.在这一篇中,我想讨论一下 ...

用Excel2007函数组合求每页小计之总计

一般会使用求和函数SUM,但笔者做的工资财务报表页数很多,使用SUM函数时很麻烦.要先输入该函数,再用鼠标点选参加计算的单元格,再按加号. 再拖动Excel2007表格找到另一页小计单元格点选,很多时 ...

Photoshop给国外女孩照片进行锐化处理

原照片: photoshop教程处理后: 操作步骤: 1.打开照片,并拷贝到新建图层. 2.执行高差反差保留命令. 3.执行去色命令. 4.更改图层混合模式. 分类: PS图片处理

解决不支持大于4g的文件的方法

现在分区不支持大于4G的文件,不支持大于4G的文件怎么办,如何下载大于4G文件.看到有很多新人没法把超过4G的电影存放到U盘里,下面三聯教程教给大家一个很简单的方法. 具体操作步骤如下: 方法一: 点 ...

如何让win7纯净版通过组策略恢复默认菜单

不少人安装了win7纯净版都会发现,自己的资源管理器菜单显示有点奇怪.实际上,这是win7纯净版默认的菜单显示,如果用户没有通过自行设置,那么菜单栏是不会显示出来的,当用户需要用到菜单栏的话只能通 ...

Logback与Log4J的区别

Logback和log4j是非常相似的,如果你对log4j很熟悉,那对logback很快就会得心应手.下面列了logback相对于log4j的一些优点: 更快的实现 Logback的内核重写了,在一 ...

泉盛对讲机TG—360写频问题

问题描述泉盛对讲机TG-360写频问题灵通LT9800写频线能写泉盛TG-360吗?(两款机都是K口线是USB线不知K口插子端引脚定义是否相同)故发贴请教!

Redis Cluster 实践

一:关于redis cluster 1:redis cluster的现状 reids-cluster计划在redis3.0中推出,可以看作者antirez的声明:http://antirez.com/ ...

三星NX1000微单相机的新品试玩推荐连拍照片每秒8张

数码爱好者吴田给我们带来了这段三星NX1000微单相机的新品试玩推荐. 他告诉金陵晚报记者,今年,不少卡片相机都带有wifi无线功能,比如三星的WB150F.索尼的TX300.佳能240HS.510H ...

2017年日本光伏市场展望

自2012年日本祭出"再生能源特别措施法案"高价收购太阳能发电以来,日本光伏市场发展迅猛.不过随着日本逐年调降太阳能收购价格,市场衰退趋势明显.2016年受内需萎缩影响,日本光伏市 ...

微应用模式在集团企业移动信息化中的实践

本文讲的是微应用模式在集团企业移动信息化中的实践,随着移动互联网的快速发展及智能手机的不断普及,越来越多的企业将"移动化"作为优先的IT需求.在移动建设早期企业大多采用独立的建设思 ...

蓝牙技术联盟：蓝牙成为云计算及物联网重要组成部分

蓝牙技术联盟http://www.aliyun.com/zixun/aggregation/35685.html">首席营销官卓文泰(Suke Jawanda)近日表示,通过蓝牙连接将 ...

无线路由器固件是什么意思

问题描述无线路由器固件是什么意思无线路由器的固件是什么意思?刷固件和手机刷机类似吗?不同型号的无线路由器的差别主要是什么? 解决方案类似于路由器上的操作系统.一般都是嵌入式linux等一般厂 ...

IT管理员得力小助手分享5款实用网络管理工具

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅网络管理包括对硬件.软件和人力的使 ...

搜索账号排行榜客户端 Mesa——谷歌揭开跨中心超速数据仓库的神秘面纱

摘要:谷歌近期发表了一篇关于最新大数据系统的论文,是关于Mesa这一全球部署的数据仓库,它可以在数分钟内提取上百万行,甚至可以在一个数据中心发生故障时依然运作. 谷歌正在为其一项令人兴奋的产品揭开面纱 ...

【新手求助】有关在线编辑，页面无刷新对数据库中的数据进行操作.....

问题描述如图所示:单击"编辑",显示"更新"和"取消","编辑"消失...同时姓名.年龄变为可输入状态对其进行更改.更 ...

CIO要如何解除“暗箱IT”带来的风险

"暗箱IT",顾名思义,给我们留下的是非常不好的感觉."暗箱IT"有自己的运行系统,并且公然的实施其自身的规章制度,很快就可以对企业的安全基础设施造成严重的威胁 ...

外媒报道美网民在社交网站上的停留时间首次超越电子邮件

北京时间5月19日上午消息,据国外媒体报道,随着网络视频在过去6年间的爆炸式增长,今年2月美国用户在社交网站上的停留时间首次超越电子邮件,这表明网民的互联网习惯发生了改变. 据调研公司尼尔森(Niel ...

redhat 4中安装Oracle 10g图文教程_oracle

--注:本篇文章只装Oracle,并没有建库一:在虚拟机里装个readhat4系统二:配IP 配好之后的IP如下: 三:建用户组,用户注意:oracle用户应具有相同的uid. groupadd ...

Adobe Creative Suite 3 Design Premium 免序列号免激活精简优化版下载_常用工具

Adobe Creative Suite 3 Design Premium软体是设计师在列印.网页设计和行动出版等工作上梦寐以求的工具套件. 它结合了全新版本的基本工具, 让您在整合且直觉式的环境中, ...

服务器公共组件实现 -- 环形缓冲区

消息队列锁调用太频繁的问题算是解决了,另一个让人有些苦恼的大概是这太多的内存分配和释放操作了.频繁的内存分配不但增加了系统开销,更使得内存碎片不断增多,非常不利于我们的服务器长期稳定运行.也许我们可以 ...

支付宝的野心：互联网模式逆袭线下支付

中介交易 SEO诊断淘宝客云主机技术大厅在尝试了条形码和二维码支付方式后,支付宝对线下支付再次发起冲击.而这次的杀手锏正是原定于1月8日举办发布会的 "卡宝项目".但是,该 ...

美国过半移动游戏玩家使用IOS设备

据国外媒体报道,近日发布的一项调查报告显示,在美国总计7700万移动游戏玩家当中,有4010万使用苹果iOS设备. NewZoo日前发布的<全球游戏玩家调查>报告显示,苹果"已经 ...

java初学者必看——J2SE小结

J2se看完了,没有及时进行总结,现在总结起来,有些费力,总觉得少点什么. 一直在期待着java的学习,现在也算是对java一个简单了解吧,因为软考要用到,所以浅浅的掌握了 ...

跪求java高手指点学习路线？

问题描述大家好,我现在是刚接触java,非常希望能把java学好,但java内容很多,希望高手指点一下. 解决方案解决方案二:先学语法.再边看书,边操作.不过这些都是建立在你英语和数学都比较好的情 ...

关于c#中以何种方式生成WORD 图表的？

问题描述大神们求助啊:这个是用哪种方式做的? 解决方案解决方案二:listview解决方案三:具体实现方式能说稍微详细一点吗,我基本算是小白,但是最近老大给了一个别人的程序,需要去修改,这个可以修 ...

微时代，微情人

"微情书"传达爱意,"微礼物"传递情感,"微时代"下,情人节变得更加多彩.然而,透过热闹的情人节经济背后,感动人心的爱情,并不是金钱砸出来的 ...

热搜