2025/05 Develop/DevOps 2025. 5. 15. [Kubernetes] OOM관련 내용 정리하기 (singleprocessOOMKill) 쿠버네티스를 사용하면서 resources를 효율적으로 사용하기 위해 requests, limits을 적용하여 사용하는 경우가 많을텐데. 가끔 의도치않게 메모리를 많이 먹는 작업을 하게 되어 OOMKilled가 발생하여 해당 pod내부에서 설치한(또는 저장한) 요소들이 다 날라가는 경우가 있다. 만일 "OOM이 발생하면 Pod(Container)가 내려가는것이 아닌 OOM을 유발한 프로세스만 종료시킬순없을까?" 라는 궁금증에서 조사했고. 다음과같은 결과가 나왔다. 쿠버네티스에서는 Pod을 생성할 때, resource를 설정하게 된다면 pod이 생성되는 노드에 아래와같은 예시 경로로 cgroup설정 파일들이 생성되게 됨./sys/fs/cgroup/kubepods_slice/kubepods-burstable... Data/Data Engineering 2025. 5. 15. [Loki] 로키 관련 내용 정리 사내에서 현재 사용중인 Grafana사에서 개발한 Loki에 대해서 내용을 정리해보려고한다. loki의 architecture는 친절하게 아래 페이지에서 확인이 가능하다. https://grafana.com/docs/loki/latest/get-started/architecture/ Loki architecture | Grafana Loki documentationLoki architecture Grafana Loki has a microservices-based architecture and is designed to run as a horizontally scalable, distributed system. The system has multiple components that can run sepa.. Develop/DevOps 2025. 5. 8. [Kubernetes] Github Action Controller 설치 및 사용 Action Runner Controller 를 사용하게되면 Github Action Runner를 Kubernetes 환경에서 띄우고 관리 할 수 있음.https://github.com/actions/actions-runner-controller/tree/master GitHub - actions/actions-runner-controller: Kubernetes controller for GitHub Actions self-hosted runnersKubernetes controller for GitHub Actions self-hosted runners - actions/actions-runner-controllergithub.com 또한, 호스트의 스펙만큼 한개의 노드에서 여러개의 Runner를.. Develop/DevOps 2025. 5. 8. [Kubeflow] Trainer helm chart 설치 아래 설치방식만 정리하기 위해서 적은 글이라 크게 도움은 안될 글입니다...ㅠKubeflow Trainer에 대한 간단한 설명 (Feat. ChatGPT)https://www.kubeflow.org/docs/components/trainer/overview/ 해당 페이지를 통해서 정보를 구했습니다.🧠 Kubeflow Trainer의 주요 특징Kubernetes 네이티브 설계Kubeflow Trainer는 Kubernetes의 Custom Resource Definition(CRD)을 활용하여 TrainJob, TrainingRuntime, ClusterTrainingRuntime 등의 리소스를 정의합니다. 이를 통해 복잡한 Kubernetes 설정 없이도 분산 학습 환경을 구성할 수 있습니다.다양한 M.. 이전 1 다음