Il sistema operativo si blocca in modo anomalo

Da quando sono passato a linux, e si tratta di un mesetto, ho notato che spesso, senza motivo quando avvio un applicazione qualsiasi, come Thunderbird, Steam o Heroic ecc, ecc, NobaraOS (variante di Fedora) si blocca costringendomi a spegnere forzatamente dal pulsante, il PC, per poi riaccenderlo.
Essendo abbastanza nuovo, c’è come in Windows qualcosa che elenchi perché il sistema si blocca, così che posso postare, quello che ho trovato e magari così da capire il problema e cercarlo di risolverlo? Grazie mille!

Di solito le distribuzioni hanno preinstallato qualche applicazione che potrebbe chiamarsi “monitor di sistema” o “gestore dei processi” o “utilizzo” che ti fa vedere i processi e le risorse utilizzate (o al limite esistono applicazioni a linea di comando come htop). Prova a aprire il “gestore dei processi”. Se non ti sì è bloccato, apri un applicazione qualsiasi e dimmi se vedi qualche risorsa schizzare alle stelle.

Comunque devo dire che è strano. Secondo me potrebbe essere legato all’esaurimento della RAM o alla tendenza a “swappare” troppo (causa valore di swappiness sbagliato o poca/troppa swap).

L’esaurimento della RAM non può essere. Ho 64GB di RAM. Ma darò un occhiata.

Dentro /var/log trovi i log di sistema. Prova a guardare syslog. Se le date sono troppo recenti, il precedente è syslog.1. Potresti trovare un crash di qualche tipo. A sensazione indagherei la scheda grafica: che modello hai e che driver stai usando?

Esegui da terminale anche: echo $QSG_RENDER_LOOP. Dovrebbe restituire basic.
(ne parlano qui: Forget Windows 11: Nobara Linux is the OS for everyone | ZDNET )

Infine, quando si blocca, prova a premere Ctrl+Alt+F1 (poi prova anche F2, F3… non so bene Fedora quale usi). Vedi se lo schermo diventa nero con un terminale di login. Nel caso, prova a loggarti poi esegui sudo dmesg. Vedi se ci sono log di errori/crash recenti.

Cmq se riesci a fare tutto questo da terminale, l’indagato più probabile si conferma essere l’ambiente grafico, in fedora sarebbe wayland.
Sembra non sia semplicissimo vedere i log di wayland:

journalctl --since=-1month  | grep ': [(]..[)] ' | grep -v gdm-x-session
  1. Ho una RTX 3060. Driver 560.35.03.
  2. Non trovo nessun file di nome syslog. Ma ho trovato dnf.log https://paste.centos.org/view/745d2cbc
  3. Il comando echo $QSG_RENDER_LOOP non restituisce nulla.
  4. Il comando dmseg: https://paste.centos.org/view/bba0354c
  5. Il comando journalctl --since=-1month | grep ': [(]..[)] ' | grep -v gdm-x-session
    non ha restituito nulla.
    Ho anche usato il comando: journalctl -b -1 https://paste.centos.org/view/5a937b0f
    Spero che queste informazioni possono essere di aiuto.
    nvidia-smi : NVIDIA - Pastebin Service
    vulkaninfo | less : vulkaninfo - Pastebin Service
    journalctl -xe: journalctl -xe - Pastebin Service

Nel mentre ho interrogato ChatGPT su questi log, questa è la risposta che mi ha dato: Grazie per i link. Analizzando i file, posso dirti che ci sono alcuni potenziali problemi da verificare che potrebbero causare il blocco del sistema. Ecco i principali punti riscontrati in ciascun log:

  1. Log di dnf.log

Questo log è relativo agli aggiornamenti e alle installazioni di pacchetti. Ho notato aggiornamenti recenti per kernel, NVIDIA, e mesa, che sono componenti critici per la grafica e la gestione dell’hardware. Se i blocchi sono iniziati dopo questi aggiornamenti, potrebbe trattarsi di un’incompatibilità introdotta di recente.
2. Log di dmesg

Ho notato un messaggio di errore su x86/cpu: SGX Launch Control is locked che suggerisce che la funzionalità SGX (Software Guard Extensions) è disabilitata o non supportata correttamente. Questo potrebbe non essere la causa diretta del problema, ma è comunque utile tenerlo in considerazione in quanto può influenzare il funzionamento generale del sistema.
Ci sono anche errori relativi a nvidia-powerd con il messaggio "Unsupported configuration", che indica che la configurazione della scheda grafica potrebbe non essere pienamente compatibile con i driver correnti.
  1. Log di journalctl -b -1

    Errori GL_FRAMEBUFFER_INCOMPLETE_ATTACHMENT ripetuti nel processo kwin_wayland suggeriscono problemi con il server grafico Wayland o l’accelerazione hardware. Questo errore può causare instabilità nella grafica e portare a blocchi se il sistema tenta di accedere a una risorsa grafica non disponibile o configurata in modo errato.
    Errori di nvidia-powerd sono di nuovo presenti, indicando possibili conflitti tra la configurazione NVIDIA e l’infrastruttura di sistema.

  2. Output di nvidia-smi

    nvidia-smi ha rilevato la GPU correttamente, quindi la scheda dovrebbe funzionare. Tuttavia, senza ulteriori informazioni specifiche, non possiamo escludere che ci siano problemi di compatibilità tra il driver e il sistema.

  3. Log di vulkaninfo

    Vulkaninfo non mostra errori critici, il che suggerisce che Vulkan è configurato correttamente. Tuttavia, il problema potrebbe risiedere nel layer di interfaccia tra Vulkan e Wayland o Xorg.

Raccomandazioni

  1. Aggiorna il sistema e il driver NVIDIA se non è già aggiornato. Eventualmente, prova una versione stabile leggermente più vecchia del driver, dato che alcuni aggiornamenti di driver possono causare problemi di compatibilità con versioni specifiche di Wayland/KDE.
  2. Passa temporaneamente a Xorg invece di Wayland, poiché i problemi di GL_FRAMEBUFFER_INCOMPLETE_ATTACHMENT sono tipici di configurazioni Wayland non completamente supportate.
  3. Verifica la configurazione nvidia-powerd. Assicurati che il modulo di gestione energetica NVIDIA sia compatibile con le impostazioni di alimentazione del BIOS, disattivando funzionalità di risparmio energetico avanzate come ASPM o C-states, che potrebbero interferire.
  4. Disabilita SGX nel BIOS, se possibile, per evitare conflitti, specialmente se non utilizzi applicazioni che ne fanno uso.

Essendo esperto, tu confermi? Cosa dovrei fare?

Come vedi non è che sia particolarmente esperto: mai usato centos/redhat/fedora e varianti.

  1. Esegui sudo nvidia-bug-report.sh e posta il risultato.
  2. Modifica il file ~/.bashrc ed aggiungi la riga export QSG_RENDER_LOOP="basic". Poi riloggati o riavvia.
  3. Quale è l’orario approssimativo del freeze? Così posso orientarmi nei vari log.
  4. Se esiste qualche opzione per disattivare l’accelerazione grafica, provala. Se esiste sudo nvidia-settings e offre “PRIME profiles”, prova ad attivare eventuale “power saving mode” (sempre se esiste). Questo dovrebbe disattivare di fatto la scheda grafica: se non sperimenti più freeze, almeno abbiamo trovato il colpevole.
  5. Per il resto sì, concordo, prova Xorg (drastico), prova a disabilitare SGX (male non dovrebbe poter fale) e disabilitare le altre cose consigliate.

Allora il comando echo $QSG_RENDER_LOOP restituisce adesso basic
Ecco cosa ha restituito il comando sudo nvidia-bug-report.sh: NVIDIA log - Pastebin Service
Tieni presente che quendo ho eseguito quesot comando, il PC ha cominciatoad andare a scatti, lo veddevo dal movimento del mouse. Poi si è bloccato totalmente. Una volta spento dal pulsante e riacceso, ho di nuovo eseguito sudo nvidia-bug-report.sh e questa volta è andato tutto bene. PEr il resto non trovo nulla. PEr passare a Xorg, non ho idea di come si faccia.

EDIT: Se può essere utile, ho raggruppato nel log tutti gli “error” e i “fails”. Re: Re: nvidia-bug-report - Pastebin Service

L’indicazione è corretta, ma forse un po’ antiquata; sui sistemi basati su systemd, non è sempre detto che esista il syslog.

L’altro problema è che solitamente i log vengono mantenuti fino al boot successivo, salvo che non sia stata abilitata la persistenza del journal (praticamente, non ci sono mai i log del “boot precedente”, che è quello che interessa se si forza lo spegnimento del PC per blocco). Qui un articolo scritto abbastanza bene (almeno ad una lettura cursoria e anche se in inglese) che spiega un po’ di questi concetti.

Solitamente, al momento del login, i sistemi di login principali (GDM, KDM) propongono la possibilità di scegliere se avviare una sessione basata su Xorg o su Wayland (qui le indicazioni ufficiali per Fedora, che comunque è la distribuzione più “vicina” a Nobara).

Indicativamente, penso anche io che possa essere un problema di scheda video e dell’interazione con Wayland; un’altra buona possibilità è che ci possano essere problemi a livello di RAM.

Per quest’ultimo problema, proverei a fare un giro di test con memtest64; se un primo giro di test della RAM va a buon fine, non gliene farei fare altri: solitamente memtest64 rileva problemi già al primo giro.

Nei log vedo:

* Main PID: 1180 (code=exited, status=1/FAILURE)
* /sys/module/nvidia_modeset/parameters/fail_malloc:-1

Prova a modificare il file /etc/default/grub, alla riga GRUB_CMDLINE_LINUX_DEFAULT, nel parametro tra virgolette aggiungi uno spazio poi nvidia_drm.modeset=1.
Ad esempio: GRUB_CMDLINE_LINUX_DEFAULT="bla bla bla nvidia_drm.modeset=1"
Poi lancia sudo update-grub (o equivalente sul tuo os) e riavvia.

  1. Sospensione funziona bene?
  2. Data di un freeze e log journalctl che la includa?
  3. Provato nvidia-settings e PRIME?

Allora potrei fare un test della memoria, ma escludo sia quello, poiché è solo da un mese che sono passato a Linux. Sono un novizio. Con Windows mai un problema del genere. Da quando sono passato a Linux, si.
Riguardo il passaggio da Wayland a Xorg, non vedo nessuna relativa opzione. Ho letto l’articolo in questione, ma non esiste su NobaraOS alcuna opzione per passare a Xorg.
Nvidia-settings e PRIME, nessuna opzione trovata per utilizzare PRIME.
Questo journalctl è attuale, non so se possa essere utile per vedere qualche errore:
https://paste.centos.org/view/5a50ee13
Data di un freeze e log journalctl dovrebbero essere questi utilizzando il comando:

journalctl --list-boots 
-2 c24d1fb43be74289a69f2798da84a444 Tue 2024-10-29 20:40:35 CET  Wed 2024-10-30 01:19:42 CET

Questa è la data quando ho eseguito sudo nvidia-bug-report.sh la prima volta e si è bloccato tutto.
Ho utilizzato journalctl -b c24d1fb43be74289a69f2798da84a444 riguardo quel giorno: journalctl -b c24d1fb43be74289a69f2798da84a444 - Pastebin Service non so se ti può essere utile.

Sospensione per ora ha sempre funzionato, almeno per ora. Però riscontro molto raramente, il problema di spegnimento del PC. Cioè normlamente Nobara, si arresta, appare il logo della scheda madre e poi il PC si spegne. Raramente, invece rimane sul logo della scheda madre, e non si spegne.
Comando andato a buon fine:

sudo update-grub
Generating grub configuration file ...
Adding boot menu entry for UEFI Firmware Settings ...
done

Al riavvio:

journalctl -b -1 -p err
ott 30 23:41:23 NarakuITA kernel: x86/cpu: SGX disabled by BIOS.
ott 30 23:41:23 NarakuITA kernel: hid-generic 0003:0B05:1815.0001: No inputs registered, leaving
ott 30 23:41:24 NarakuITA kernel: 
ott 30 23:41:28 NarakuITA /usr/bin/nvidia-powerd[1171]: Found unsupported configuration. Exiting...
ott 30 23:41:34 NarakuITA org_kde_powerdevil[2520]: busno=2, sleep-multiplier =  2,00. Testing for supported feature 0x10 returned Error_Info[DDCRC_RETRIES in ddc_write_read_with_retry, causes: DDCRC_DDC_DATA(10)]
ott 31 00:17:38 NarakuITA alsactl[1252]: /usr/sbin/alsactl: get_control:255: Cannot read control '3,0,0,Playback Channel Map,0': Invalid argument
ott 31 00:17:38 NarakuITA dbus-broker-launch[1140]: Activation request for 'org.freedesktop.Avahi' failed.
ott 31 00:17:38 NarakuITA dbus-broker-launch[1725]: Activation request for 'org.bluez.obex' failed.
ott 31 00:17:38 NarakuITA dbus-broker-launch[1140]: Activation request for 'org.freedesktop.nm_dispatcher' failed.
ott 31 00:17:39 NarakuITA kernel: watchdog: watchdog0: watchdog did not stop!

Ecco il log ricaricato riguardo journalctl -b c24d1fb43be74289a69f2798da84a444

E ti è crashato? A che ora?

Guarda non ricordo… Facciamo così appena mi si blocca di nuovo, annoto tutto, in modo preciso. Anche perché ieri ho fatto degli aggiornamenti su Nobara importati Plasma 6.2.2 e altro. Vediamo se si ripresenta!

Eccomi di nuovo, il blocco si è presentato tra le ore 18:17 e le 18:18 06/11/24.
journalctl -b
https://paste.centos.org/view/7627ffbc
journalctl -b -1
https://paste.centos.org/view/f2ca163b
sudo nvidia-bug-report.sh
https://paste.centos.org/view/5ba355ec

Mi da tutte page not found

1 Like

Questa volta il PC si è bloccato, su per giù dopo due ore di utilizzo (prima volta). Ero su Discord WEB non facevo altro, avevo qualche applicazione aperta.
Il PC si è bloccato alle ore 01:03.
Purtroppo sul sito il codice dopo un giorno viene cancellato. Non me lo fa tenere di più.
L’ho caricato su un altro:
journalctl -b -1
https://paste.ofcode.org/wsXwJEB7STL5wWevR4PSVj
sudo nvidia-bug-report.sh
https://paste.ofcode.org/5WbY5f3vq2ejXcfXYB4gez
journalctl -b -1 -p err
https://paste.ofcode.org/zGE5f3N3NFT3iZiyPjWhUZ

Secondo me le linee sospette sono:

nov 18 01:03:49 NarakuITA wireplumber[1836]: wp-event-dispatcher: <WpAsyncEventHook:0x557b067a72e0> failed: failed to activate item: Object activation aborted: proxy destroyed
nov 18 01:04:19 NarakuITA kwin_wayland[1831]: kwin_wayland_drm: Failed to create a framebuffer: Argomento non valido
[...]
nov 18 01:04:24 NarakuITA kwin_wayland[1831]: kwin_wayland_drm: Pageflip timed out! This is a kernel bug

Mhm prova con Xorg. Sospetto che sia un BUG

Volevo comunicare che dopo vari test, il problema non si è più presentato.
Dopo l’aggiornamento del Kernel alla versione 6.11.9-200.fsync.fc40.x86_64 (64 bit) e aggiornamenti minori sui driver scheda video, il PC non si è più bloccato. Evidentemente era un bug, che è stato risolto. Speriamo :slight_smile: