村美小站数据拟合,tor是什么意思

仪表(Jittor ) 1.1版)添加主干网络、JIT功能升级、多卡培训支持

深度学习框架- JIT tor，新版本的JIT tor 1.1已上线。主要变更点如下

增加了对许多主干网的支持，增强了辅助转换脚本的能力，降低了用户开发和移植模型的难度。

JIT (动态编译)功能已升级，支持高性能定制操作符开发，减少了用户开发定制操作符的难度。

新的分布式功能使用户无需更改代码，只需更改启动命令，即可将单张卡片版本的培训计划直接无缝部署到多卡片或多机器上。

另外，Jittor新支持了很多神经网络算子，充实了对深度神经网络开发的支持。

新的主干网

在JIT tor 1.1版中，模型库增加了很多基础骨干网，用户可以基于这些基础骨干网构建自己的深度学习模型。这些骨干网参数与PyTorch参数格式兼容，可以相互加载呼叫，便于用户学习和迁移。

更新后的主干网如下。

import jittor.models

from jittor.models import

亚历克斯内特、

谷歌网

inception_v3，

mnasnet，

mobilenet_v2，

resnext101_32x8d，

shufflenetv2，

squeezenet，

wide_resnet101_2

更多主干网支持请参见print (JIT tor.models )。

以下是对AlexNet、VGG、ResNet、Wide ResNet和SqueezeNet等多种骨干网络在不同batch size下，Jittor和PyTorch的单一前向性能的比较，图1的横轴表示不同的batch size 使用GPU1080ti、显存11GB、CPUI7-6850k、内存32GB、32位浮点数进行计算。

可以看到，Jittor在这些常见主干网络中的速度非常快，大多数网络都会提高Jittor的速度。

辅助转换脚本增强

此次更新还提供了简单的辅助转换脚本，以支持从PyTorch转换模型代码。不支持模型以外的代码。以下是一个简单的例子。

from jittor.utils.py torch _ converterimportconvert

pytorch_code=” ” ‘

类模型(nn.module ) :

defhttp://www.Sina.com/(self ) :

super ().init) )。

self.con v1=nn.conv 2d (1，10，3 ) ) ) )。

self.con v2=nn.conv 2d (10，32，3 ) ) )。

self.fc=nn.linear (1200，100 ) ) ) )。

defforward(self，x ) : x=self.conv1(x ) x=self.conv2(x ) x=x.view ) x.size(0)，-1) x=self

JIT tor _ code=convert (py torch _ code ) )。

print (# # generatejittorcode :jittor_code ) ) ) ) ) ) ) ) )。

exec(JITtor_code ) )。

模型=模型()

print(‘##jittormodel: ‘，model ) ) ) ) )。

上述脚本将输出可用模型以及计量模型代码。

生成的仪表代码： import jittor as jt

from jittor import init

from jittor import nn

类模型(nn.module ) :

def __init__(self ) 3360super(._init_ ) (self.conV1=nn.conv ) 1，10，3 ) self.conV2=nn 100 ) dedelf.den

conv 13360 conv (1，10，3，3 )，1，1 )，0，0 )，1，1 )，groups=1，bias=float[10，] ) )。

conv 23360 conv (10，32，3，3 )，1，1 )，0，0 )，1，1 )，groups=1，Bias=float(32，) )

fc :线性(1200，100，float32[100，]，None ) )。

）

有关使用模型转换脚本的详细信息，请参阅仪表盘官方文档。

T功能升级
Jittor 1.1版本的 JIT(动态编译)功能的增强，主要体现在code算子的功能增强上。Code算子是一个基于高性能语言的动态编译算子，允许用户直接在Python中内联C++/CUDA代码，只需要寥寥数行代码，就可以完成高性能的自定义算子开发，降低用户开发自定义算子的难度。
下面的实例展示了如何使用code算子，使用数行代码实现三维点云中十分常用的K近邻查找。Code算子的设计和实现，让用户既可以享受到Python语言的便捷与易用性，又可以获得高性能语言的性能。
a = jt.random((n,3))
b = jt.code([n, k], “int32”, [a],
cpu_header=”#include “,
cpu_src=”””
using namespace std;
auto n=out_shape0, k=out_shape1;
// 使用openmp实现自动并行化
#pragma omp parallel for
for (int i=0; i<n; i++) {
// 存储k近邻的距离和下标
vector<pair<float,int>> id(n);
for (int j=0; j<n; j++) {
auto dx = @in0(i,0)-@in0(j,0);
auto dy = @in0(i,1)-@in0(j,1);
auto dz = @in0(i,2)-@in0(j,2);
id[j] = {dxdx+dydy+dz*dz, j};
}
// 使用c++算法库的nth_element排序
nth_element(id.begin(),
id.begin()+k, id.end());
// 将下标输出到计图的变量中
for (int j=0; j<k; j++)
@out(i,j) = id[j].second;
}”””
)
将计图使用code算子实现的K近邻查找，和PyTorch的算子用时进行比较，速度对比如下（k=10,点云数量n=[100,1000,10000]）：

注：此处使用的K近邻算法为暴力算法，还存在更优的算法实现，由于文章篇幅有限，此处仅用于展示Code算子的使用。
更新大幅度提升了code算子的易用性和可读性，主要包含以下几点：
• code 算子可以有多个输出
• code 算子允许输出动态大小的变量
• code 算子内部可以写注释
• code 算子可以通过@alias为input和outputs增加别名，增加代码可读性
具体文档请参考help(jt.code)和提供的文档，计图提供了多种实例以供参考。目前内联C++代码支持CUDA和openmp，未来会加入更多语言和库的支持。
分布式接口
计图本次分布式更新主要基于MPI（Message Passing Interface），依赖OpenMPI，用户可以使用如下命令安装OpenMPI：
sudo apt install openmpi-bin openmpi-common libopenmpi-dev
OpenMPI安装完成以后，用户无需修改代码，需要做的仅仅是修改启动命令行，计图就会用数据并行的方式自动完成并行操作。

单卡训练代码

python3.7 -m jittor.test.test_resnet

分布式多卡训练代码

mpirun -np 4 python3.7 -m jittor.test.test_resnet

指定特定显卡的多卡训练代码

CUDA_VISIBLE_DEVICES=“2,3” mpirun -np 2 python3.7 -m jittor.test.test_resnet
这种便捷性的背后是计图的分布式算子的支撑，计图支持的mpi算子后端会使用nccl进行进一步的加速。计图所有分布式算法的开发均在Python前端完成，这让分布式算法的灵活度增强，开发分布式算法的难度也大大降低。下面的代码是使用计图实现分布式同步批归一化层的实例代码：
def execute(self, x):
if self.is_train:
xmean = jt.mean(x, dims=[0,2,3], keepdims=1)
x2mean = jt.mean(x*x, dims=[0,2,3], keepdims=1)
if self.sync and jt.mpi:
xmean = xmean.mpi_all_reduce(“mean”)
x2mean = x2mean.mpi_all_reduce(“mean”)

xvar = x2mean-xmean*xmean norm_x = (x-xmean)/jt.sqrt(xvar+self.eps) self.running_mean += (xmean.sum([0,2,3])-self.running_mean)*self.momentum self.running_var += (xvar.sum([0,2,3])-self.running_var)*self.momentumelse: running_mean = self.running_mean.broadcast(x, [0,2,3]) running_var = self.running_var.broadcast(x, [0,2,3]) norm_x = (x-running_mean)/jt.sqrt(running_var+self.eps)w = self.weight.broadcast(x, [0,2,3])b = self.bias.broadcast(x, [0,2,3])return norm_x * w + b

这次更新，开放了mpi算子的稳定接口，用户可以自行使用mpi算子开发所需的自定义的分布式算法，相关文档请参考help(jittor.mpi.ops)和计图分布式教程。基于这些mpi算子接口，研发团队已经集成了如下三种分布式相关的算法：
• 分布式数据并行加载
• 分布式优化器
• 分布式同步批归一化层
其他更新
教程更新列表：
• 模型辅助转换工具教程
• 计图多卡分布式教程
• 利用Code算子简化高性能算子开发
算子更新列表：
• group conv
• 三角函数，反三角函数，双曲函数，反双曲函数支持
• flatten
• view
• permute
• adapool
• PReLU
• LeakyReLU
• ReLU6
• ReflectionPad2d
• ZeroPad2d
• ConstantPad2d
• ReplicationPad2d
• PixelShuffle
• Upsample
损失函数更新列表：
• MSELoss
• BCELoss
• L1Loss
• BCEWithLogitsLoss
分布式相关算子：
• mpi_all_reduce
• mpi_reduce
• mpi_broadcast
• nccl_all_reduce
• nccl_reduce
• nccl_broadcast

村美小站数据拟合,tor是什么意思

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复