PAI Blade简介
PAI-Blade是阿里巴巴自研的通用推理优化框架,通过模型系统联合优化达到最优的推理性能。Blade有机融合了包括Blade graph optimizer、TensorRT、PAI-TAO、Blade custom optimizer、Blade int8 (mixed-precision)、Blade Auto-Compression在内的多种优化技术。Blade会首先对模型进行分析,基于对模型的理解对模型的部分或全部应用上述的优化技术,优化过程包括但不限于:
- 通用图优化
- 基于理解的计算图等效变换
- 算子融合
- 对计算图算子丰富的高效实现所进行的组合优化
- JIT编译
- 基于模板及历史数据实现的半自动或自动codegen
- 启发式的Auto-Tuning
- 模型压缩、剪裁
- 模型低精度及混合精度量化
- 模型低精度量化前提下的精度恢复技术
所有的优化技术均面向通用性设计,可以应用在不同的业务场景中。Blade的每一步优化过程都对数值结果的准确性进行了验证,确保输出的优化结果不会对模型本来的精度或指标产生非预期的影响。
当前PAI-Blade在上海Region开放公测,您可以在PAI控制台直接使用上传模型并一键优化您的深度学习模型。