TensorFlow Lite加快2倍，推出基于OpenCL的Android移动GPU推理引擎 - 铝电解电容

TensorFlow Lite（TFLite）现在在Android设备上使用OpenCL支持GPU推理。

这项改进使TFLite性能比使用现有OpenGL后端快大约2倍。

TensorFlow Lite团队介绍了使用OpenCL在移动GPU推理方面的最新进展，并宣布正式推出基于OpenCL的Android移动GPU推理引擎。

该引擎可提供高达2倍的性能提升。

OpenGL ES 3.1中添加了计算着色器，但其向后兼容的API设计决策限制了GPU的全部潜力。

另一方面，OpenCL从一开始就设计为使用各种加速器进行计算，因此它与移动GPU推理领域更加相关。

因此，TFLite团队研究了基于OpenCL的推理引擎，并介绍了一些功能，这些功能可以优化移动GPU推理引擎。

相反，新的移动GPU推理引擎具有以下几点：性能分析：与OpenGL相比，优化OpenCL后端要容易得多，因为OpenCL提供了良好的分析功能和Qualcomm Adreno的良好支持。

使用这些概要分析API，可以非常准确地衡量每个核心调度的性能。

优化工作组规模：高通Adreno GPU上的TFLite GPU的性能对工作组规模非常敏感。

选择正确的工作组规模可以提高性能，反之亦然。

使用OpenCL中的上述性能分析功能，可以实现针对工作组规模的优化器，从而将平均速度提高了50％。

本机16位精度浮点（FP16）：OpenCL本机支持FP16，并要求加速器指定数据类型的可用性。

作为官方规范的一部分，即使是某些较旧的GPU，例如2012年推出的Adreno 305，也可以执行其全部功能。

恒定内存：OpenCL具有恒定内存的概念。

高通公司增加了物理内存功能，使其非常适合与OpenCL的恒定内存一起使用。

对于某些特殊情况，例如神经网络开始或末尾的非常薄的层，这被证明是非常有效的。

Adreno上的OpenCL可以通过此物理常量内存和上述本机FP16支持的协同作用大大超越OpenGL的性能。

TFLite专门显示了使用现有OpenGL后端GPU和新的OpenCL后端GPU的CPU（大型内核上的单线程）之间的性能比较。

上图说明了在两个著名的神经网络MNASNet 1.3和SSD MobileNet v3（大）上使用OpenCL的特定Android设备上推理引擎的性能。

如您所见，新的OpenCL后端的速度大约是OpenGL后端的两倍，而OpenCL在大型网络上的性能甚至更高。

另外，由于OpenCL本身不是Android的一部分，因此某些用户可能无法使用它。

为了简化开发，TFLite GPU委托添加一些修改，首先在运行时检查OpenCL的可用性，如果可用，它将使用新的OpenCL后端，否则将回退到现有的OpenGL后端。

实际上，OpenCL后端自2019年中以来一直位于TensorFlow存储库中，并通过TFLite GPU委托v2无缝集成。