Veo3 ASMR ビデオ生成プロンプト
ミニチュア着物フィギュアや美女が和の伝統文化を行うASMRビデオを生成するためのプロンプト集
!!! abstract
Loading actions...
Main instructions and any bundled files for this skill.
!!! abstract

* Paper: [Gemini: Fast Failure Recovery in Distributed Training with In-Memory Checkpoints](https://dl.acm.org/doi/10.1145/3600006.3613145)
* **SOSP'23**
Gemini 是一个大模型的分布式训练系统,可以做到故障后的快速恢复。Gemini 的设计特征是向 CPU memory 写检查点并具有更大的聚合带宽。Gemini 通过接近最优的检查点放置策略,最大化从 CPU memory 检查点恢复(而不是从远程存储拉取)的可能性;通过通讯规划算法,最小化甚至消除写检查点对训练性能的影响。实验表明 Gemini 在恢复时相对于现有的解决方案达到了至少 13 倍的速度提升。
当前模型参数量不断提升,由于使用了更多数量的加速器(如以万计的 GPU),在训练大模型时遇到系统故障的频率以及训练所用的时间均有所提升。现有的方案向远程存储系统写检查点,使得恢复过程被存储系统和网络带宽限制;同时为了保证模型质量,现有方案不能通过丢弃故障机器的运算结果来快速恢复训练过程。
向 CPU memory 写检查点需要解决两个问题:如何保证能从故障中恢复,如何最小化写检查点占用带宽对模型训练的影响。
Gemini 主要有两个模块:检查点生成模块以及故障恢复模块。设计概览图如下:

Gemini 的检查点生成模块将每个 GPU 机器的检查点文件存储到不同的设备中,包括本地 CPU memory、远程 CPU memory 和持久存储,其中两类 CPU memory 中的检查点文件用来进行故障恢复,持久存储中的检查点文件用来进行模型调试等其他用途。在故障恢复时,Gemini 会依照本地 CPU memory - 远程 CPU memory - 远程存储的顺序试图恢复检查点状态。
Gemini 的故障恢复模块由一组 worker agents、一个 root agent、一个分布式键值对存储系统以及 cloud operator 构成:
冗余检查点的放置方式对从 CPU memory 获取检查点进行恢复的可能性有很大影响。简单的两类放置方式有组放置(group placement)和环放置(ring placement),如下图所示(后文假设机器总数为 $N$,副本数为 $m$):

在上述两种放置方式的基础上,作者提出了混合放置的方法:
针对问题:若有 $N$ 台机器,每份检查点数据有 $m$ 备份,如何寻找一个最佳的放置策略来最大化从 CPU memory 完成故障恢复的可能性。作者证明了以下结论:
设计的主要目标是在不影响训练性能的前提下最小化故障恢复所用的时间。
当前的分布式训练在训练过程中通常需要进行通讯来对模型参数和优化器状态进行同步,记为训练通讯(training traffic);向远程 CPU memory 写检查点时需要通过网络通讯,记为检查点通讯(checkpoint traffic)。作者认为训练通讯天然的有“间隔”,即每一轮训练中会有多次训练通讯,可以充分利用两次训练通讯之间的间隔进行检查点通讯。需要注意一点,作者认为只有在权重更新的时候会修改模型参数,因此可以在 $n+1$ 轮训练过程中对第 $n$ 轮(即上一轮)的模型参数进行写检查点。

!!! question 想知道实际任务中的总线负载,训练通讯真的有这么完美的“间隔”吗(即有多个总线传输的峰值,且谷值极低,峰峰之间的间隔比较长)。
考虑到当前模型大小增大,大多数显存被用来保存模型状态,而 Gemini 希望通过 GPU-GPU 传输检查点,这就要求显存中需要有一部分空间分配给其他机器的检查点。检查点本身的大小很大,如果在“间隔”中直接连续传输容易造成 OOM(out of memory),Gemini 采取了分片的方式规避这个问题。同时为了充分利用 GPU-GPU 以及 GPU-CPU 的带宽,Gemini 进行了流水化处理。
Gemini 会在开始训练的几轮中进行 profiling,获取训练的特征,即寻找“间隔”并记录每段间隔的开始和结束时间用于确定检查点分片。
Gemini 认为造成系统故障的原因有两类,软件故障和硬件故障。软件故障(如遇到软件 bug 或者数据错误)可以直接从本地 CPU memory 恢复到上一次检查点状态并重启训练。硬件故障部分简单来说就是设置一些机器待命,并由 root agent 进行替换;当组内仍有检查点备份时可以从 CPU memory 中进行恢复;仅当组内全部机器故障时才需要全部从远程存储拉取检查点进行恢复。这部分主要是工程实现的贡献,看起来没有什么创新点。
ミニチュア着物フィギュアや美女が和の伝統文化を行うASMRビデオを生成するためのプロンプト集
| 項目 | 内容 |
Suggest creative perks or acknowledgments for sponsors to foster a sense of belonging and appreciation.