Cara Memantau dan Mengelola GPU NVIDIA di Ubuntu Menggunakan nvidia-smi

1. Pendahuluan

Saat menggunakan GPU di Ubuntu, penting untuk memantau statusnya secara akurat. Hal ini terutama penting dalam beban kerja yang melibatkan deep learning atau rendering grafis, di mana pemahaman penggunaan GPU dan versi driver wajib. Dalam artikel ini, kami menjelaskan cara menggunakan nvidia-smi, alat manajemen GPU NVIDIA, dan memperkenalkan metode untuk memeriksa informasi GPU di Ubuntu.

2. Memeriksa Informasi GPU dengan nvidia-smi

nvidia-smi adalah alat baris perintah yang memungkinkan Anda memantau pemanfaatan, penggunaan memori, dan informasi detail lainnya tentang GPU NVIDIA. Alat ini sangat berguna saat memeriksa aktivitas GPU secara real‑time atau mengambil metrik pemanfaatan yang terperinci.

Penggunaan Dasar

Anda dapat menggunakan perintah berikut untuk memantau penggunaan GPU dan pemanfaatan memori secara real‑time:

nvidia-smi --query-gpu=timestamp,name,utilization.gpu,utilization.memory,memory.used,memory.free --format=csv -l 1

Perintah ini mengambil informasi terperinci termasuk pemanfaatan GPU, penggunaan memori, dan memori yang tersedia. Opsi -l memungkinkan Anda mengatur interval penyegaran dalam detik.

Format Tampilan dan Output File

Secara default, hasil ditampilkan dalam format tabel, tetapi Anda dapat mengekspornya sebagai CSV untuk memudahkan pemrosesan. Jika Anda ingin menyimpan informasi ke sebuah file, tentukan tujuan menggunakan opsi -f.

nvidia-smi --query-gpu=timestamp,name,utilization.gpu,utilization.memory,memory.used,memory.free --format=csv -l 1 -f /path/to/output.csv

Ini memungkinkan Anda menyimpan log pemanfaatan GPU dan menganalisisnya nanti.

3. Mengambil Informasi Proses dengan nvidia-smi

nvidia-smi juga memungkinkan Anda mengambil informasi tentang proses yang saat ini menggunakan GPU. Hal ini membantu mengidentifikasi berapa banyak sumber daya GPU yang dikonsumsi oleh masing‑masing proses.

Mendapatkan Informasi Proses

Gunakan perintah berikut untuk melihat PID dan penggunaan memori dari proses yang memanfaatkan GPU:

nvidia-smi --query-compute-apps=pid,process_name,used_memory --format=csv,noheader

Perintah ini mengembalikan daftar proses GPU yang aktif dan menampilkan penggunaan memori masing‑masing proses.

Subperintah nvidia-smi pmon

Alat nvidia-smi juga menyertakan subperintah pmon, yang menyediakan pemantauan proses GPU secara terperinci.

nvidia-smi pmon --delay 10 -s u -o DT

Ini menampilkan informasi proses GPU pada interval yang ditentukan. Opsi --delay menentukan interval penyegaran dalam detik, dan Anda dapat memilih informasi apa yang ingin ditampilkan.

4. Menginstal dan Memverifikasi Driver NVIDIA

Untuk menggunakan GPU NVIDIA di Ubuntu, driver NVIDIA yang tepat harus diinstal. Berikut langkah‑langkah untuk instalasi dan verifikasi.

Instalasi Driver

Pertama, instal driver NVIDIA yang sesuai untuk sistem Anda menggunakan perintah berikut:

sudo apt install nvidia-driver-510

Setelah instalasi selesai, restart sistem Anda.

Memverifikasi Instalasi

Setelah reboot, jalankan perintah berikut untuk memastikan driver terpasang dengan benar:

nvidia-smi

Jika versi driver dan versi CUDA muncul, instalasi berhasil.

5. Memverifikasi Operasi GPU dengan TensorFlow

Anda juga dapat memverifikasi fungsi GPU dengan mengujinya menggunakan TensorFlow, sebuah kerangka kerja pembelajaran mesin.

Menginstal Anaconda

Pertama, instal Anaconda dan siapkan lingkungan Anda:

bash ./Anaconda3-2022.05-Linux-x86_64.sh
conda update -n base conda
conda update anaconda
conda update -y --all
conda install tensorflow-gpu==2.4.1

Memeriksa Pengakuan GPU di TensorFlow

Selanjutnya, verifikasi apakah TensorFlow mengenali GPU:

from tensorflow.python.client import device_lib
device_lib.list_local_devices()

Jika perangkat GPU muncul dalam daftar, TensorFlow berhasil mendeteksi GPU.

6. Pemantauan dan Pencatatan GPU

nvidia-smi memungkinkan pemantauan GPU secara real‑time dan pencatatan log. Hal ini membantu melacak penggunaan GPU dari waktu ke waktu dan mengoptimalkan kinerja.

Periodic Monitoring

Untuk mengatur pemantauan berkala, gunakan opsi -l untuk menentukan interval pembaruan, dan secara opsional mencatat data ke sebuah file:

nvidia-smi --query-gpu=timestamp,name,utilization.gpu,utilization.memory,memory.used,memory.free --format=csv -l 1 -f /var/log/gpu.log

Kontrol yang Dapat Diprogram melalui Binding Python

nvidia-smi menyediakan binding Python (nvidia-ml-py) yang memungkinkan Anda mengambil informasi GPU secara programatik. Ini memungkinkan pemantauan dan kontrol yang lebih disesuaikan dari skrip Python.

7. Kesimpulan

nvidia-smi adalah alat yang kuat untuk memeriksa dan mengelola penggunaan GPU NVIDIA di Ubuntu. Artikel ini menjelaskan penggunaan dasar, pemantauan proses, instalasi driver, dan verifikasi GPU TensorFlow. Gunakan teknik-teknik ini untuk memaksimalkan kinerja GPU dan mengoptimalkan sistem Anda.

侍エンジニア塾