카테고리 없음

Nvidia driver 또는 CUDA 관련 업데이트로 CUDA을 사용하지 못할 때

SciomageLAB 2024. 10. 2. 21:04
반응형

발단 원인

Ubuntu 18.04에서 sudo apt-get upgrade를 진행하였다. 이로 인해 Nvidia 드라이버 및 CUDA 라이브러리가 업데이트 되었다.

업데이트 진행 후 nvidia-smi 명령어를 쳐보니 아래의 메세지가 뜨면서 기존에 잡히던 장치가 잡히지 않았다.

NVML: Driver/library version mismatch

해결 방안

업데이트 하면서 Nvidia driver kernel module이 제대로 로드되지 않아 생기는 문제였다.

이를 해결하기 위해 Nvidia kernel module에 종속적인 모든 프로세스를 종료하고
커널 모듈을 내린 뒤 재부팅하여 다시 로드 되도록 하려고 한다.

1단계 : 로드된 Nvidia kernel module 확인하기

lsmod | grep nvidia

### 2단계 : Nvidia 장치를 쓰는 프로세스들 죽이기

아래 그림과 같이 Nvidia 그래픽 장치는 /dev 밑에 위치해있다.
종속된 장치들을 확인한다.

아래 lsof 명령어로 현재 열려있는 장치만 걸러서 본다.

sudo lsof /dev/nvidia*

그럼 아래와 같이 오픈 되어있는 파일과(장치와) 그것을 사용중인 프로세스 PID를 볼 수 있는데 이 PID를 참고하여 프로세스들을 죽인다.

### 3단계 : 커널 모듈 내리기

sudo rmmod  nvidia_uvm nvidia_drm nvidia_modeset nvidia

참고문헌

https://hwiyong.tistory.com/85

반응형