这里下载Horovod分布式深度学习框架—最新资源、最热资源、资源官方下载站

下载排行|最近更新

关键词
当前位置:首页其他源码开发框架 → Horovod分布式深度学习框架 v0.24.1
Horovod分布式深度学习框架

Horovod分布式深度学习框架 v0.24.1

下载地址
  • 软件介绍
  • 猜你喜欢
  • 同类推荐
  • 相关文章
Horovod是针对TensorFlow,Keras,PyTorch和Apache MXNet的分布式深度学习培训框架。Horovod的目标是使分布式深度学习快速且易于使用。

Horovod由LF AI和数据基金会(LF AI&Data)托管。如果您是一家致力于在人工智能,机器和深度学习中使用开源技术的公司,并希望在这些领域中支持开源项目的社区,请考虑加入LF AI和数据基金会。有关谁参与以及Horovod如何扮演角色的详细信息,请阅读Linux Foundation公告。

安装要安装Horovod:
1、安装CMake
2、如果您已从PyPI安装TensorFlow ,请确保已安装g++-4.8.5或g++-4.9或更高版本。
如果您已从PyPI安装了PyTorch ,请确保已安装g++-4.9或更高版本。
如果您已经从Conda安装了任何一个软件包,请确保gxx_linux-64已安装Conda软件包。
3、安装horovodpip包。
要在CPU上运行: $ pip install horovod要在具有NCCL的GPU上运行:
$ HOROVOD_GPU_OPERATIONS = NCCL点安装horovod $ HOROVOD_GPU_OPERATIONS=NCCL pip install horovod
用法要使用Horovod,请在程序中添加以下内容:
1、运行hvd.init()以初始化Horovod。
2、将每个GPU固定到一个进程,以避免资源争用。
通常每个进程设置一个GPU,将其设置为local rank。服务器上的第一个进程将被分配第一个GPU,第二个进程将被分配第二个GPU,依此类推。
3、通过工人人数来衡量学习率。
同步分布式培训中的有效批处理规模是根据工人人数来衡量的。学习率的提高弥补了批量大小的增加。
4、将优化器包装在中hvd.DistributedOptimizer。
分布式优化器将梯度计算委托给原始优化器,使用allreduce或allgather对梯度求平均,然后应用这些平均梯度。
5、将等级0的初始变量状态广播到所有其他进程。
当使用随机权重开始训练或从检查点恢复训练时,这是确保所有工人进行一致初始化的必要步骤。
6、修改您的代码以仅在工作程序0上保存检查点,以防止其他工作程序破坏它们。

使用TensorFlow v1的示例(有关完整的培训示例,请参阅示例目录): import tensorflow as tfimport horovod.tensorflow as hvd# Initialize Horovodhvd.init()# Pin GPU to be used to process local rank (one GPU per process)config = tf.ConfigProto()config.gpu_options.visible_device_list = str(hvd.local_rank())# Build model...loss = ...opt = tf.train.AdagradOptimizer(0.01 * hvd.size())# Add Horovod Distributed Optimizeropt = hvd.DistributedOptimizer(opt)# Add hook to broadcast variables from rank 0 to all other processes during# initialization.hooks = [hvd.BroadcastGlobalVariablesHook(0)]# Make training operationtrain_op = opt.minimize(loss)# Save checkpoints only on worker 0 to prevent other workers from corrupting them.checkpoint_dir = '/tmp/train_logs' if hvd.rank() == 0 else None# The MonitoredTrainingSession takes care of session initialization,# restoring from a checkpoint, saving to a checkpoint, and closing when done# or an error occurs.with tf.train.MonitoredTrainingSession(checkpoint_dir=checkpoint_dir, config=config, hooks=hooks) as mon_sess: while not mon_sess.should_stop(): # Perform synchronous training. mon_sess.run(train_op)
运行Horovod下面的示例命令显示了如何运行分布式训练。有关更多详细信息,请参见Run Horovod,包括RoCE / InfiniBand调整和处理挂起的技巧。
1、要在具有4个GPU的计算机上运行: $ horovodrun -np 4 -H localhost:4 python train.py2、要在具有4个GPU的4台计算机上运行: $ horovodrun -np 16 -H server1:4,server2:4,server3:4,server4:4 python train.py3、要在不使用horovodrun包装的情况下使用Open MPI运行,请参阅使用Open MPI运行Horovod。
4、要在Docker中运行,请参阅Docker中的Horovod。
5、要在Kubernetes中运行,MPI运算符,Helm Chart,FfDL和Polyaxon。
6、要在Spark上运行。
7、要在Ray上运行。
8、在Singularity运行
9、要在LSF HPC集群(例如Summit)中运行

展开内容

下载地址

同类推荐

推荐文章

本类排行

  • 周排行
  • 月排行

友情链接关于我们下载帮助(?)联系我们投诉举报

CopyRight © 2010-2023 这里下载 heredown.com , All Rights Reserved 版权所有 蒙ICP备2023006002号-1 蒙公网安备15052402000135

声明: 本站所有软件和文章来自互联网 如有异议 请与本站联系

声明: