当前位置：首页 → 其他源码 → 开发框架 → Horovod分布式深度学习框架 v0.24.1

Horovod分布式深度学习框架 v0.24.1

下载地址

软件大小：1.39MB
软件语言：简体中文
更新时间：2022-03-07
软件类别：国产软件
软件性质：开源软件
运行环境：Python
软件等级：
官方网址：homepage
演示地址：demo

本地下载

软件大小：1.39MB

高速下载

需优先下载高速下载器

点赞差评

软件介绍
猜你喜欢
同类推荐
相关文章
下载地址

Horovod是针对TensorFlow，Keras，PyTorch和Apache MXNet的分布式深度学习培训框架。Horovod的目标是使分布式深度学习快速且易于使用。

Horovod由LF AI和数据基金会（LF AI＆Data）托管。如果您是一家致力于在人工智能，机器和深度学习中使用开源技术的公司，并希望在这些领域中支持开源项目的社区，请考虑加入LF AI和数据基金会。有关谁参与以及Horovod如何扮演角色的详细信息，请阅读Linux Foundation公告。

安装要安装Horovod：
1、安装CMake
2、如果您已从PyPI安装TensorFlow ，请确保已安装g++-4.8.5或g++-4.9或更高版本。
如果您已从PyPI安装了PyTorch ，请确保已安装g++-4.9或更高版本。
如果您已经从Conda安装了任何一个软件包，请确保gxx_linux-64已安装Conda软件包。
3、安装horovodpip包。
要在CPU上运行： $ pip install horovod要在具有NCCL的GPU上运行：
$ HOROVOD_GPU_OPERATIONS = NCCL点安装horovod $ HOROVOD_GPU_OPERATIONS=NCCL pip install horovod
用法要使用Horovod，请在程序中添加以下内容：
1、运行hvd.init()以初始化Horovod。
2、将每个GPU固定到一个进程，以避免资源争用。
通常每个进程设置一个GPU，将其设置为local rank。服务器上的第一个进程将被分配第一个GPU，第二个进程将被分配第二个GPU，依此类推。
3、通过工人人数来衡量学习率。
同步分布式培训中的有效批处理规模是根据工人人数来衡量的。学习率的提高弥补了批量大小的增加。
4、将优化器包装在中hvd.DistributedOptimizer。
分布式优化器将梯度计算委托给原始优化器，使用allreduce或allgather对梯度求平均，然后应用这些平均梯度。
5、将等级0的初始变量状态广播到所有其他进程。
当使用随机权重开始训练或从检查点恢复训练时，这是确保所有工人进行一致初始化的必要步骤。
6、修改您的代码以仅在工作程序0上保存检查点，以防止其他工作程序破坏它们。

使用TensorFlow v1的示例（有关完整的培训示例，请参阅示例目录）： import tensorflow as tfimport horovod.tensorflow as hvd# Initialize Horovodhvd.init()# Pin GPU to be used to process local rank (one GPU per process)config = tf.ConfigProto()config.gpu_options.visible_device_list = str(hvd.local_rank())# Build model...loss = ...opt = tf.train.AdagradOptimizer(0.01 * hvd.size())# Add Horovod Distributed Optimizeropt = hvd.DistributedOptimizer(opt)# Add hook to broadcast variables from rank 0 to all other processes during# initialization.hooks = [hvd.BroadcastGlobalVariablesHook(0)]# Make training operationtrain_op = opt.minimize(loss)# Save checkpoints only on worker 0 to prevent other workers from corrupting them.checkpoint_dir = '/tmp/train_logs' if hvd.rank() == 0 else None# The MonitoredTrainingSession takes care of session initialization,# restoring from a checkpoint, saving to a checkpoint, and closing when done# or an error occurs.with tf.train.MonitoredTrainingSession(checkpoint_dir=checkpoint_dir, config=config, hooks=hooks) as mon_sess: while not mon_sess.should_stop(): # Perform synchronous training. mon_sess.run(train_op)
运行Horovod下面的示例命令显示了如何运行分布式训练。有关更多详细信息，请参见Run Horovod，包括RoCE / InfiniBand调整和处理挂起的技巧。
1、要在具有4个GPU的计算机上运行： $ horovodrun -np 4 -H localhost:4 python train.py2、要在具有4个GPU的4台计算机上运行： $ horovodrun -np 16 -H server1:4,server2:4,server3:4,server4:4 python train.py3、要在不使用horovodrun包装的情况下使用Open MPI运行，请参阅使用Open MPI运行Horovod。
4、要在Docker中运行，请参阅Docker中的Horovod。
5、要在Kubernetes中运行，MPI运算符，Helm Chart，FfDL和Polyaxon。
6、要在Spark上运行。
7、要在Ray上运行。
8、在Singularity运行
9、要在LSF HPC集群（例如Summit）中运行

Horovod分布式深度学习框架 v0.24.1

猜你喜欢

ionic HTML5 移动应用框架 v4.0 正式版

Horovod分布式深度学习框架

Taro多端统一开发框架 v2.0.6

SunnyUI.Net开发框架 正式版

Taro多端统一开发框架

ionic HTML5 移动应用框架 最新版

下载地址

Horovod分布式深度学习框架

同类推荐

推荐文章

本类排行

热门应用

元小福

蕾丝直播

最佳东方掌上求职 官方版

91短视频

风月直播

快色短视频

北斗看世界3D实况街景

小程序定制

蘑菇语音

热门软件

WinSCP 免费FTP工具 v5.7.7

汉码 Hmark 最新版

AbAlarm v5.6 桌面工具

返利QQ机器人 秒单客返利机器人 v2016.11.18.1

石青网站推广软件 v1.9.1

百度关键字优化精灵 v1.9.8

360浏览器 正式版

百度私信群发助手 v1.4.4.10

风越excel批量自动填写网页表单工具

SunnyUI.Net开发框架正式版

ionic HTML5 移动应用框架最新版

最佳东方掌上求职官方版

返利QQ机器人秒单客返利机器人 v2016.11.18.1

360浏览器正式版