Narzędzia monitorujące wykorzystanie zasobów na klastrze Bem
Na klastrze Bem dostępne są narzędzia ułatwiające monitorowanie wykorzystania zasobów (pamięć operacyjna oraz czas wykonywania) przez zakończone zadania (resused i resstat).
Aby uzyskać informacje o wykorzystaniu zasobów przez zakończone zadania można skorzystać z polecenia:
> resused number_of_jobs
gdzie jako parametr należy podać liczbę zadań z zakresu od 1 do 500, np.
> resused 5
Polecenie wyświetli tabelę zawierającą informacje o wykorzystaniu zasobów przez każde z 5-ciu ostatnio zakończonych zadań. Tabela powinna wyglądać podobnie do poniższej:
Resource usage of the last 5 jobs Job Id Job Name Memory Used/Req [GB] Walltime Used/Req [h] -------- ---------- -------- --------------- ---------- -------------- 2000 test_1 OK 6.86/7.81 OK 71/100 2001 test_2 OK 6.86/7.81 OK 7/10 2002 test_3 OK 6.86/7.81 OK 5/5 2003 test_4 CRITICAL 0.86/7.81 OK 12/12 2004 cc1 WARNING 4.00/10.00 WARNING 4/12
Kolejne kolumny powyższej tabeli oznaczają:
- identyfikator zadania (Job Id)
- nazwę zadania (Job Name)
- komunikat dotyczący wykorzystania pamięci przez zadanie (Memory)
- ilość pamięci wykorzystanej i zaalokowanej dla zadania w GB (Used/Req [GB])
- komunikat dotyczący wykorzystania walltime'u przez zadanie (Walltime)
- liczbę godzin wykorzystanych i zarezerwowanych dla zadania (Used/Req [h])
Komunikaty CRITICAL, WARNING oraz OK w kolumnach Memory i Walltime odpowiadają następującemu wykorzystaniu zasobów przez zadanie:
Wykorzystanie zasobów: Komunikat: 0-30% CRITICAL 31-70% WARNING 71-100% OK
Przykład: zadanie o nazwie test_1 (identyfikator 2000) wykorzystało 6.86 GB pamięci z zarezerwowanych 7.81 GB (ok. 88%) . Zadanie wykorzystało 71% zarezerwowanego czasu (obliczenia trwały 71h, natomiast zarezerwowano 100h).
Dodanie opcji -c do polecenia resused wyświetli dodatkowe informacje:
> resused -c 5
Resource usage of the last 5 jobs Job Id Job Name Memory Used/Req [GB] Walltime Used/Req [h] CPUTime Used/Wall*ncpus [h] -------- ---------- -------- --------------- ---------- -------------- --------- --------------------- 2000 test_1 OK 6.86/7.81 OK 71/1000 OK 71/100 2001 test_2 OK 6.86/7.81 OK 7/10 OK 15/20 2002 test_3 OK 6.86/7.81 OK 5/5 CRITICAL 4/20 2003 test_4 CRITICAL 0.86/7.81 OK 12/12 CRITICAL 1/12 2004 cc1 WARNING 4.00/10.00 WARNING 4/12 WARNING 4/12
Dwie końcowe kolumny w powyższej tabeli oznaczają:
- komunikat dotyczący wykorzystania czasu CPU przez zadanie (CPUTime)
- liczbę godzin CPU wykorzystanych przez zadanie (Used) oraz iloczyn: liczba_zaalokowanych_godzin_walltime*liczba_zaalokowanych_rdzeni (Wall*ncpus)
Przykład: zadanie o nazwie test_1 (identyfikator 2000) było zlecone na jeden rdzeń (ncpus=1) i wykorzystało 71h czasu CPU oraz 71h walltime'u. Procentowe wykorzystanie czasu CPU jest zatem równe 71%.
W celu sprawdzenia statystyki wykorzystania zasobów przez 10, 100 oraz 1000 ostatnio zakończonych zadań można skorzystać z komendy:
> resstat
Polecenie wyświetla tabelę podobną do poniższej:
Total usage by the last: Memory used/req [GB] [%] Walltime used/req [h] [%] --------- ---------------------- ----- ----------------------- ----- 10 jobs 111/117 95 4036/5040 80 100 jobs 1118/1172 95 25030/50400 50 1000 jobs 8937/9850 89 209631/498418 42
Tabela ta zawiera następujące informacje:
- sumaryczną ilość pamięci wykorzystanej i zaalokowanej przez 10, 100 i 1000 ostatnio zakończonych zadań w GB (Memory used/req [GB])
- sumaryczną liczbę godzin wykorzystanych i zaalokowanych przez 10, 100 i 1000 ostatnio zakończonych zadań (Walltime used/req [GB])
- procentowe wykorzystanie pamięci i walltime'u przez 10, 100 i 1000 ostatnio zakończonych zadań
Przykład: 10 ostatnio zakończonych zadań użytkownika wykorzystało łącznie 111 GB pamięci z zarezerwowanych 117 GB, co stanowi 95%. Te same zadania wykorzystały łącznie 4036h czasu obliczeniowego z zaalokowanych 5040h (80%).
Uwaga
Po zalogowaniu na klaster Bem wyświetlane są dwie tabele. Pierwsza z nich prezentuje informację o wykorzystaniu pamięci oraz walltime'u przez 10 ostatnio zakończonych zadań użytkownika (wynik działania komendy resused 10), natomiast druga przedstawia statystyki wykorzystania tych zasobów przez ostatnich 10, 100 oraz 1000 zadań (wynik działania komendy resstat).