SDN x Cloud Native x Golang
Skilled
Kubeflow 進行分散式深度學習訓練之作業排程瓶頸
IB401 14:55 ~ 15:25 MandarinKubeflow 是由 Google 與相關公司共同發起的開源專案,其目標是利用 Kubernetes 容器平台上來簡化機器學習環境建置與工作負載的流程,使之更簡單、可攜帶性與擴展,並提供一套標準的雲原生 (Cloud Native) 機器學習解決方案,以幫助資料科學家在工作流中實現一套流水線。 這次的分享將會透過分析現有 kubeflow 進行深度學習分散式作業,任務資源分配上 Scheduler 碰到的瓶頸,並且透過 kube-batch 改善 Scheduler 方法介紹。
Collaborative note: https://hackmd.io/@coscup/r1G5JmeVH