[Kubeflow] Trainer helm chart 설치

~~아래 설치방식만 정리하기 위해서 적은 글이라 크게 도움은 안될 글입니다...ㅠ~~

Kubeflow Trainer에 대한 간단한 설명 (Feat. ChatGPT)

https://www.kubeflow.org/docs/components/trainer/overview/ 해당 페이지를 통해서 정보를 구했습니다.

🧠 Kubeflow Trainer의 주요 특징

Kubernetes 네이티브 설계
Kubeflow Trainer는 Kubernetes의 Custom Resource Definition(CRD)을 활용하여 TrainJob, TrainingRuntime, ClusterTrainingRuntime 등의 리소스를 정의합니다. 이를 통해 복잡한 Kubernetes 설정 없이도 분산 학습 환경을 구성할 수 있습니다.
다양한 ML 프레임워크 지원
PyTorch, TensorFlow, JAX, XGBoost 등 주요 ML 프레임워크를 지원하며, HuggingFace, DeepSpeed, Megatron-LM 등의 라이브러리와도 통합이 가능합니다.
Kubeflow Python SDK 통합
Kubeflow Python SDK를 통해 TrainJob을 정의하고 실행할 수 있어, 데이터 과학자나 ML 엔지니어가 친숙한 Python 환경에서 작업할 수 있습니다.
GPU 자원 최적화
데이터셋 및 모델 초기화를 CPU에서 처리하여 GPU 자원의 낭비를 줄이고, 분산 학습 노드 간 자산 초기화를 간소화합니다.
Kubernetes 스케줄러와의 통합
Kueue, Volcano, YuniKorn 등의 Kubernetes 스케줄러와 통합되어, ML 워크로드의 GPU 활용도 및 gang-scheduling을 최적화할 수 있습니다.

Helm Chart를 이용한 Operator 설치

kubeflow trainer는 공식적으로 helm chart repository를 제공하지않는것으로 보여진다. 따라서 repository clone이후 아래와같은 명령어로 별도로 helm chart packaging을 진행해야한다.

git clone https://github.com/kubeflow/trainer.git
cd trainer/charts/kubeflow-trainer
helm dependency update
helm package .

# kubeflow-trainer-2.0.0.tgz 생성

저작자표시 비영리 변경금지 (새창열림)

'Develop > DevOps' 카테고리의 다른 글

[Kubernetes] OOM관련 내용 정리하기 (singleprocessOOMKill) (0)	2025.05.15
[Kubernetes] Github Action Controller 설치 및 사용 (0)	2025.05.08
[Kubernetes] Audit log(감사로그) (0)	2025.04.27
[AlertManager] 특정 라벨을 가진 Alert무시하기 (0)	2025.04.15
[Prometheus] ServiceMonitor 정리 및 AlertManger 관련 (0)	2025.04.10

개발 공부방

[Kubeflow] Trainer helm chart 설치

Kubeflow Trainer에 대한 간단한 설명 (Feat. ChatGPT)

🧠 Kubeflow Trainer의 주요 특징

Helm Chart를 이용한 Operator 설치

'Develop > DevOps' 카테고리의 다른 글

티스토리툴바

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

[Kubeflow] Trainer helm chart 설치

Kubeflow Trainer에 대한 간단한 설명 (Feat. ChatGPT)

🧠 Kubeflow Trainer의 주요 특징

Helm Chart를 이용한 Operator 설치

'Develop > DevOps' 카테고리의 다른 글

'Develop/DevOps' 관련글

티스토리툴바