Volcano(scheduler 03) 介绍 除了前面聊到的通过 scheduler framework 对 kubernetes 的调度特性进行扩展之外,还可以通过多调度器的方式进行扩展,因为我自己
Scheduler framework 前面我们聊了 kubernetes 的默认调度器 default scheduler,其简单的调度逻辑,在 kubernetes 多个版本的迭代中一直保持稳定性能。不过随着 Kubernetes 部署的任务类型越来越多
Kubernetes Scheduler 最近在看 k8s 调度相关的一些内容,希望给自己这阵子了解的知识进行一个整理,会连载几篇文章,都会关于调度的,初步的想法是 kubernetes 的默认调度器,然后
Horovod 源码分析 前言 最近有一些需求是跟分布式训练相关的,然后自己重新看了一下 horovod 的代码,感觉还是有一些不清晰的地方,所以尝试把自己的一些理解写下来,
项目介绍 ElasticDL 是蚂蚁金服开源的一个基于 TensorFlow 2.0 eager execution 和 Kubernetes 的弹性分布式深度学习框架。ElasticDL 没有像 Kubeflow 和 pytorch/elastic 那样选择开发 Kubernetes Operator,整个 elasticDL
项目介绍 Pytorch/elastic (下称 elastic) 是 pytorch 1.4 作为新 feature 和 pytorch/serve 等功能一同引入的。从使用上,可以看出 elastic 有意地维持了跟原来使用 torch.distributed.launch 等接口的相似性,大致看使用过