英伟达 TensorRT 8 上线,BERT 推理延迟仅有 1.2 毫秒

英伟达昨日发布了其 TensorRT 的 8.0 版本。TensorRT 可以看作是在英伟达各种 GPU 硬件平台下运行的一个深度学习推理框架,其核心是一个 C++ 库。 开发者可以将其他框架训练好的 … Continue reading 英伟达 TensorRT 8 上线,BERT 推理延迟仅有 1.2 毫秒