Narzędzia monitorujące wykorzystanie zasobów na klastrze Bem: Różnice pomiędzy wersjami

Z KdmWiki
Przejdź do nawigacji Przejdź do wyszukiwania
Linia 48: Linia 48:
 
  --------  ---------- --------  ---------------  ----------  --------------  ---------  ---------------------
 
  --------  ---------- --------  ---------------  ----------  --------------  ---------  ---------------------
 
     2000  test_1    OK        6.86/7.81        OK          71/1000        OK        71/100
 
     2000  test_1    OK        6.86/7.81        OK          71/1000        OK        71/100
     2001  test_2    OK        6.86/7.81        OK          7/10            OK        28/20
+
     2001  test_2    OK        6.86/7.81        OK          7/10            OK        14/20
 
     2002  test_3    OK        6.86/7.81        OK          5/5            CRITICAL  4/20
 
     2002  test_3    OK        6.86/7.81        OK          5/5            CRITICAL  4/20
 
     2003  test_4    CRITICAL  0.86/7.81        OK          12/12          CRITICAL  1/12
 
     2003  test_4    CRITICAL  0.86/7.81        OK          12/12          CRITICAL  1/12

Wersja z 09:16, 19 lip 2016

Na klastrze Bem dostępne są narzędzia ułatwiające monitorowanie wykorzystania zasobów (pamięć operacyjna oraz czas wykonywania) przez zakończone zadania (resused i resstat).


Aby uzyskać informacje o wykorzystaniu zasobów przez zakończone zadania można skorzystać z polecenia:

> resused number_of_jobs

gdzie jako parametr należy podać liczbę zadań z zakresu od 1 do 500, np.

> resused 5

Polecenie wyświetli tabelę zawierającą informacje o wykorzystaniu zasobów przez każde z 5-ciu ostatnio zakończonych zadań. Tabela powinna wyglądać podobnie do poniższej:

Resource usage of the last 5 jobs

  Job Id  Job Name   Memory    Used/Req [GB]    Walltime    Used/Req [h]
--------  ---------- --------  ---------------  ----------  --------------
    2000  test_1     OK        6.86/7.81        OK          71/100          
    2001  test_2     OK        6.86/7.81        OK          7/10          
    2002  test_3     OK        6.86/7.81        OK          5/5        
    2003  test_4     CRITICAL  0.86/7.81        OK          12/12           
    2004  cc1        WARNING   4.00/10.00       WARNING     4/12            

Kolejne kolumny powyższej tabeli oznaczają:

  • identyfikator zadania (Job Id)
  • nazwę zadania (Job Name)
  • komunikat dotyczący wykorzystania pamięci przez zadanie (Memory)
  • ilość pamięci wykorzystanej i zaalokowanej dla zadania w GB (Used/Req [GB])
  • komunikat dotyczący wykorzystania walltime'u przez zadanie (Walltime)
  • liczbę godzin wykorzystanych i zarezerwowanych dla zadania (Used/Req [h])

Komunikaty CRITICAL, WARNING oraz OK w kolumnach Memory i Walltime odpowiadają następującemu wykorzystaniu zasobów przez zadanie:

Wykorzystanie zasobów:     Komunikat:
0-30%                      CRITICAL
31-70%                     WARNING
71-100%                    OK

Przykład: zadanie o nazwie test_1 (identyfikator 2000) wykorzystało 6.86 GB pamięci z zarezerwowanych 7.81 GB (ok. 88%) . Zadanie wykorzystało 71% zarezerwowanego czasu (obliczenia trwały 71h, natomiast zarezerwowano 100h).

Dodanie opcji -c do polecenia resused wyświetli dodatkowe informacje:

> resused -c 5
Resource usage of the last 5 jobs

  Job Id  Job Name   Memory    Used/Req [GB]    Walltime    Used/Req [h]    CPUTime    Used/Wall*ncpus [h]
--------  ---------- --------  ---------------  ----------  --------------  ---------  ---------------------
    2000  test_1     OK        6.86/7.81        OK          71/1000         OK         71/100
    2001  test_2     OK        6.86/7.81        OK          7/10            OK         14/20
    2002  test_3     OK        6.86/7.81        OK          5/5             CRITICAL   4/20
    2003  test_4     CRITICAL  0.86/7.81        OK          12/12           CRITICAL   1/12
    2004  cc1        WARNING   4.00/10.00       WARNING     4/12            WARNING    3/12

Dwie końcowe kolumny w powyższej tabeli oznaczają:

  • komunikat dotyczący wykorzystania czasu CPU przez zadanie (CPUTime)
  • liczbę godzin CPU wykorzystanych przez zadanie i wartość liczba_zaalokowanych_godzin_walltime*liczba_zaalokowanych_rdzeni (Used/Wall*ncpus [h])

Przykład: zadanie o nazwie test_1 (identyfikator 2000) było zlecone na jeden rdzeń (ncpus=1) i wykorzystało 71h czasu CPU oraz 71h walltime'u. Procentowe wykorzystanie czasu CPU jest zatem równe 71%.


W celu sprawdzenia statystyki wykorzystania zasobów przez 10, 100 oraz 1000 ostatnio zakończonych zadań można skorzystać z komendy:

> resstat

Polecenie wyświetla tabelę podobną do poniższej:

Total usage by the last:

             Memory used/req [GB]    [%]    Walltime used/req [h]    [%]
---------  ----------------------  -----  -----------------------  -----
  10 jobs                 111/117     95                4036/5040     80
 100 jobs               1118/1172     95              25030/50400     50
1000 jobs               8937/9850     89            209631/498418     42

Tabela ta zawiera następujące informacje:

  • sumaryczną ilość pamięci wykorzystanej i zaalokowanej przez 10, 100 i 1000 ostatnio zakończonych zadań w GB (Memory used/req [GB])
  • sumaryczną liczbę godzin wykorzystanych i zaalokowanych przez 10, 100 i 1000 ostatnio zakończonych zadań (Walltime used/req [GB])
  • procentowe wykorzystanie pamięci i walltime'u przez 10, 100 i 1000 ostatnio zakończonych zadań

Przykład: 10 ostatnio zakończonych zadań użytkownika wykorzystało łącznie 111 GB pamięci z zarezerwowanych 117 GB, co stanowi 95%. Te same zadania wykorzystały łącznie 4036h czasu obliczeniowego z zaalokowanych 5040h (80%).


Uwaga

Po zalogowaniu na klaster Bem wyświetlane są dwie tabele. Pierwsza z nich prezentuje informację o wykorzystaniu pamięci oraz walltime'u przez 10 ostatnio zakończonych zadań użytkownika (wynik działania komendy resused 10), natomiast druga przedstawia statystyki wykorzystania tych zasobów przez ostatnich 10, 100 oraz 1000 zadań (wynik działania komendy resstat).