반응형
어느날 GPU관련 메모리 리소스 확인을 하려고 nvidia-smi 명령어를 실행했더니 갑자기
NVIDIA NVML Driver/library version mismatch
이라는 에러문이 나와서 해결하고자 갓구글의 힘을 빌렸다.
일단은 다음과같은 사이트에서 해결방법을 구했고, 실제로 적용해보니 해결한것을 확인했다.
https://stackoverflow.com/questions/43022843/nvidia-nvml-driver-library-version-mismatch
정리하자면, 다음과같이 작업하면된다
lsmod | grep nvidia
먼저 위의 명령어를 입력하면 다음과같이 나올텐데
다음과 같은 애들을 unload시켜줘야한다. 순서를 꼭 지켜줘야한다.
- sudo rmmod nvidia_drm
- sudo rmmod nvidia_modeset
- sudo rmmod nvidia_uvm
- sudo rmmod nvidia
만약에 위의 첫번째 명령어를 실행시켰을때 다음과같은 에러가 나온다면
rmmod: ERROR: Module nvidia_drm is in use
다음 명령어를 실행해서 지금 nvidia 관련 프로세스가 뭐가있는지 확인
sudo lsof /dev/nvidia*
주르르륵 나오는 PID중 하나를 선택해서 강제로 종료
sudo kill -9 [PID]
이후에 다시 위의 명령어를 실행하면 정상적으로 돌아간다.
반응형
'Develop > DevOps' 카테고리의 다른 글
[MLOps] Kubernetes CKA자격증 공부 - Security (0) | 2021.12.05 |
---|---|
[MLOps] Kubernetes CKA자격증 공부 - Maintenance (0) | 2021.12.04 |
[Airflow] Ubuntu20.04 Anaconda 상에서 Airflow 간단설치 (0) | 2021.08.13 |
[MLOps] Airflow 트러블슈팅 정리 (0) | 2021.08.04 |
[MLOps] Kubernetes CKA자격증 공부 - Logging & Commands (0) | 2021.07.15 |