반응형
아래 설치방식만 정리하기 위해서 적은 글이라 크게 도움은 안될 글입니다...ㅠ
Kubeflow Trainer에 대한 간단한 설명 (Feat. ChatGPT)
https://www.kubeflow.org/docs/components/trainer/overview/ 해당 페이지를 통해서 정보를 구했습니다.
🧠 Kubeflow Trainer의 주요 특징
- Kubernetes 네이티브 설계
Kubeflow Trainer는 Kubernetes의 Custom Resource Definition(CRD)을 활용하여 TrainJob, TrainingRuntime, ClusterTrainingRuntime 등의 리소스를 정의합니다. 이를 통해 복잡한 Kubernetes 설정 없이도 분산 학습 환경을 구성할 수 있습니다. - 다양한 ML 프레임워크 지원
PyTorch, TensorFlow, JAX, XGBoost 등 주요 ML 프레임워크를 지원하며, HuggingFace, DeepSpeed, Megatron-LM 등의 라이브러리와도 통합이 가능합니다. - Kubeflow Python SDK 통합
Kubeflow Python SDK를 통해 TrainJob을 정의하고 실행할 수 있어, 데이터 과학자나 ML 엔지니어가 친숙한 Python 환경에서 작업할 수 있습니다. - GPU 자원 최적화
데이터셋 및 모델 초기화를 CPU에서 처리하여 GPU 자원의 낭비를 줄이고, 분산 학습 노드 간 자산 초기화를 간소화합니다. - Kubernetes 스케줄러와의 통합
Kueue, Volcano, YuniKorn 등의 Kubernetes 스케줄러와 통합되어, ML 워크로드의 GPU 활용도 및 gang-scheduling을 최적화할 수 있습니다.
Helm Chart를 이용한 Operator 설치
kubeflow trainer는 공식적으로 helm chart repository를 제공하지않는것으로 보여진다. 따라서 repository clone이후 아래와같은 명령어로 별도로 helm chart packaging을 진행해야한다.
git clone https://github.com/kubeflow/trainer.git
cd trainer/charts/kubeflow-trainer
helm dependency update
helm package .
# kubeflow-trainer-2.0.0.tgz 생성
반응형
'Develop > DevOps' 카테고리의 다른 글
[Kubernetes] OOM관련 내용 정리하기 (singleprocessOOMKill) (0) | 2025.05.15 |
---|---|
[Kubernetes] Github Action Controller 설치 및 사용 (0) | 2025.05.08 |
[Kubernetes] Audit log(감사로그) (0) | 2025.04.27 |
[AlertManager] 특정 라벨을 가진 Alert무시하기 (0) | 2025.04.15 |
[Prometheus] ServiceMonitor 정리 및 AlertManger 관련 (0) | 2025.04.10 |