Ticket #117 (new)

Opened 10 years ago

Last modified 8 years ago

Sporočanje loada, porabe pomnilnika in števila procesov

Reported by: mitar Owned by: kostko
Priority: major Milestone: Next milestone
Component: nodewatcher/core Version:
Keywords: Cc:
Related nodes: Realization state:
Blocking: Effort: normal
Blocked by: Security sensitive: no

Description

Za spremljanje pravilnega delovanja točk bi bilo dobro sporočati še load, porabo pomnilnika in število procesov na sistemu, tako da se na grafih potem lažje opazi težave.

Change History

comment:1 Changed 10 years ago by kostko

Reportanje s strani nodewatcher skripte implementirano v reviziji [354]. Podpora v monitoring skripti še pride.

comment:2 Changed 10 years ago by mitar

Opozorila se naj javljajo tako:

  • pri pomnilniku se naj pogleda povprečje prostega pomnilnika glede na vso shranjeno zgodovino točke in v kolikor pade za dalj časa (ura recimo, torej povprečje zadnje ure) pod 0.5 povprečja, javi opozorilo
  • podobno pri številu vseh procesov na sistemu, le da v tem primeru javi opozorilo, če je povprečno število vseh procesov več kot 2x povprečja
  • pri loadu naj javi opozorilo:
    • če kdaj load zadnjih 5 minut preskoči mejo 5.0
    • če load zadnjih 15 minut preskoči mejo 2.0
    • če je povprečje 5 minutnih loadov vse shranjene zgodovine več kot 0.95 (torej to pomeni, da je točka ves čas obremenjena skoraj do konca, to bo prišlo prav, da bomo kdaj opazili, če točke več ne zmorejo OLSR?)

Bilo bi super, ampak ne vem, če je to možno z ne preveč truda narediti, če bi se še gledalo povprečje števila novih procesov (torej razlika dveh zaporednih veljavnih vrednosti zadnjega PID, povprečje le-te). To bi se lahko beležilo kot neodvisna vrednost v bazi in tudi grafih. In bi se potem glede na to vrednost novih procesov javilo opozorilo, če bi povprečna vrednost novih procesov v zadnji uri bila 2x povprečna vrednost novih procesov v zgodovini. Tu je potrebno paziti, ko se zadnji PID resetira. Ali ko se sama točka resetira. Da se tega ne upošteva. Ta vrednost bi tako pomenila, da nekaj pretirano ustvarja procese (recimo da je kakšna napaka, ali pa da nekdo preko HTTPja pretirano poganja obstoječe CGI programe).

Za vse te podatke (prost pomnilnik, load v zadnjih 5, 10 in 15 minutah, števila procesov, ki se lahko poženejo in vseh procesov, števila novih procesov) se naj še rišejo grafi. Te zgoraj omenjene trenutne povprečne vrednosti se naj izpisujejo na grafih, da lahko vidimo, če smo meje za opozorila postavili smiselno.

comment:3 Changed 10 years ago by kostko

  • Security sensitive unset

Monitoring implementiran z revizijama [355] in [356] (točke, ki želijo posredovati te podatke naj nadgradijo nodewatcher paket). Generiranje dogodkov še pride.

comment:4 Changed 10 years ago by kostko

  • Milestone changed from 2.0b to 3.0b

Kar se tiče generiranje opozoril glede na zgornje kriterije, to spada v 3.0b:)

comment:5 Changed 9 years ago by kostko

Za taka opozorila je mogoče smiselno pogledati tudi Aberrant Behavior Detection modul, ki ga vsebuje rrdtool. Glede na dokumentacijo se uporablja Holt-Winters time series forecasting algoritem.

comment:6 Changed 8 years ago by mitar

  • Milestone changed from 3.0b to Next milestone
Note: See TracTickets for help on using tickets.