Statistiche sulla pubblicazione in formati aperti da parte della PA

mythsmith · 11 Maggio 2021, 6:50am

Seguendo questa idea del brainstorm:

Sono scaturite 2 implementazioni in grado di contare il numero di documenti pubblicato in ciascun formato dai siti delle amministrazioni pubbliche italiane.

comuni-crawler, basato su python http-crawl, di @amreo
Italian public administration search engine , un mio tentativo basato su YaCy

Sono qui a chiedere se ILS è intenzionata a far uscire l’idea dal brainstorming, e se qualcuno sarebbe interessato a partecipare.

Di seguito alcuni aspetti che necessitano di collaborazione:

Costruire una interfaccia ai risultati raccolti, che comunichi in modo efficace lo stato di adozione di opendocument, man mano che arrivano i risultati.
Contattare gli enti che non utilizzano formati aperti, magari facendo rete con altre realtà interessate agli open data ed open format.
L’impresa è tecnicamente complessa: si tratta di esplorare a fondo 22000 siti web (decine o centinaia di milioni di pagine). Credo serva un approccio distribuito, con più nodi che partcipano al crawling e condividono i risultati.

mte90 · 11 Maggio 2021, 8:55am

Lo ho girato ai soci di LibreItalia, vediamo che dicono

italovignoli · 11 Maggio 2021, 5:40pm

Io metto a disposizione la mia competenza sui formati standard (e anche su quelli proprietari) per fare l’analisi dei risultati, e ovviamente per comunicarla. Credo anche che si potrebbe cominciare con un campione, perché se aspettiamo di avere i dati di tutti i siti secondo me non partiamo mai.
Sono mesi che ho in programma la redazione di un white paper sui formati standard, che faccia un po’ di chiarezza sulla situazione in modo non tecnico (o meno tecnico possibile), e adesso dovrei avere un po’ di tempo da dedicarci.

amreo · 11 Maggio 2021, 5:58pm

Grazie @italovignoli (e benvenuto sul forum)!

amreo · 11 Maggio 2021, 6:05pm

Domanda @madbob/@valerio.bozzolan/@mte90/@mythsmith il progettino che ho fatto serve ancora? Lo porto avanti?
Attualmente è completo, anche se spesso correttamente i tipi di file e tende ad andare in timeout con alcuni comuni. Qui c’è un output: https://gitlab.com/amreo/comuni-crawler/-/raw/master/output_collection/2021-05-06.json

mythsmith · 11 Maggio 2021, 8:00pm

Per me è validissimo: http-crawler è infinitamente più efficiente di yacy, e può ignorare i robots.txt (cosa che yacy non può, almeno non completamente, a meno di modificare il codice).
Forse http-crawler è meno raffinato nel districarsi nel labirinto del web, ma tieni conto che stiamo parlando di milioni di pagine. Alcuni siti sono ricorsivi all’infinito, o sono ripetuti pari-pari all’interno di altri siti: ad esempio le sezioni “/amministrazione-trasparente/” di tutti i siti dell’ACI, di ogni provincia.

YaCy nel frattempo deve creare un indice ricercabile, il ché aprirebbe la possibilità di sviluppi futuri senza bisogno di una scansione completa ogni volta (tipo: quanti dei documenti parlando di covid?, qual’è l’interconnessione media tra un sito della PA ed ogni altro sito della PA? quanti siti PA fanno pubblicità a Facebook/Google/etc, invitando i cittadini verso i loro siti?).

Tutto questo ha un costo, tanté che yacy nasce per poter distribuire il carico su più nodi. Carico che forse, alla fine, non sarà sostenibile: teniamo calda anche l’ipotesi http-crawler!

mythsmith · 11 Maggio 2021, 8:05pm

Benvenuto @italovignoli, grazie per partecipare alla discussione.
Sei ufficialmente il primo cliente per questi dati.
Cosa intendi per campione? Randomizziamo sperando di ottenere un campione rappresentativo, o focalizziamo su una singola realtà/ente-con-sedi-territoriali/provincia/CAP puntando ad esaurirlo e agire solo verso quella realtà? Altre idee?

mythsmith · 14 Maggio 2021, 8:04am

@amreo ho guardato anche il dataset da comuni-crawler, che contiene 51k documenti su 2159 domini contenenti qualcosa dei 22k iniziali: qui il risultato.
Come dato iniziale per @italovignoli mi sembra ottimo.

YaCy, in confronto, ha trovato finora 10k documenti, ma su solo 300 domini. Facendo le proporzioni, quando e se avrà mai finito, potrebbe riuscire a trovare almeno mezzo milione di documenti. Al momento però è un campione troppo poco rappresentativo rispetto a comuni-crawler, per via del basso numero di domini scansionati.

italovignoli · 14 Maggio 2021, 8:04am

Secondo me la prima delle due ipotesi è quella che ci porta ad avere dei dati più facili da utilizzare, perché puntare solo su una singola organizzazione rischia di sollevare un’obiezione relativa allo scarso significato dei dati, in quanto relativi a una sola realtà territoriale, per quanto grande essa sia. Purtroppo, siamo di fronte a un fenomeno che non è solo di malcostume politico, ma di mera ignoranza rispetto al problema. Voi non avete idea delle obiezioni che mi vengono fatte sul tema dei formati standard, c’è addirittura gente che in buona fede - li conosco da anni - sostiene che è meglio affidarsi a Microsoft perché essendo una grande azienda è più affidabile (dopo aver dimostrato dati alla mano, il che significa dopo aver analizzato i documenti, che è assolutamente inaffidabile). La strada da compiere è lunghissima.

italovignoli · 14 Maggio 2021, 8:11am

Ho dato un occhio velocissimo, e credo si possa iniziare a lavorare su questi dati. Una sola domanda, il primo grafico ha una linea rossa “scanned” che ritengo sia relativa al totale dei documenti analizzati per ciascun anno, mentre le due “msofficexml” e “msoffice” sono relative rispettivamente ai documenti OOXML (DOCX, XLSX e PPTX) e ai documenti legacy (DOC, XLS e PPT).

mythsmith · 14 Maggio 2021, 8:15am

Esatto.
Nota: Dal grafico per anno sono ovviamente esclusi tutti quei documenti per i quali non sono riuscito ad estrarre una data di ultima modifica: il totale della linea rossa con gli asterischi (scanned) non fa 51k.

italovignoli · 14 Maggio 2021, 8:26am

OK, non è un problema. Il grafico fotografa una situazione drammatica.

madbob · 14 Maggio 2021, 1:43pm

Assolutamente si!

A monte della proposta c’e’ l’intento di monitorare nel tempo l’adozione di formati OpenDocument sui siti dei comuni (anche solo rieseguendo il “setaccio” una volta all’anno e confrontando i numeri anno dopo anno) e all’occorrenza intrecciarli poi con altri dati (cfr. la questione di Halley Informatica), in modo da avere numeri e cifre reali da accompagnare ai reiterati appelli per l’utilizzo dei formati standard.

mythsmith · 16 Maggio 2021, 8:30pm

A proposito di halley, sarebbe utile un elenco di url di tutti i comuni serviti, in modo da poterli includere nella scansione. Esiste già qualcosa?

Ah poi ho visto questo… direttamente dagli anni 90’!

amreo · 16 Maggio 2021, 8:42pm

Si, puoi recupeare la lista degli url dal file json prodotto (ci sono gli url giusti) oppure direttamente da qui ( https://www.indicepa.gov.it/ipa-dati/dataset/502ff370-1b2c-4310-94c7-f39ceb7500e3/resource/3ed63523-ff9c-41f6-a6fe-980f3d9e501f/download/amministrazioni.txt) ma tieni conto che alcuni url sono invalidi…

mythsmith · 16 Maggio 2021, 8:50pm

grep "[^@]halley" amministrazioni.txt |wc --lines ritorna solo 14 risultati, mentre da quanto dice @madbob dovrebbero esserci migliaia di enti che si affidano a loro. Ad esempio, manca:
http://egov4.halleysardegna.com/nurri/
Perché molte amministrazioni hanno il loro sito sul loro dominio:
https://www.comune.nurri.ca.it/
Ma poi si affidano (o affiderebbero, in questo caso specifico) ad un servizio esterno per la gestione documentale. Contando le pec su @halleypec.it, ad esempio, si passa già da 14 a 146 enti coinvolti.
Quindi, questi domini esterni andrebbero aggiunti comune per comune…

mythsmith · 18 Maggio 2021, 8:47am

Potrebbero essere utili query di questo tipo:
http://yacy.mythsmith.it:8090/solr/collection1/select?q=outboundlinks_urlstub_sxt:*.halleyweb.com/*&defType=edismax&start=0&rows=10&wt=yjson

Il campo solr outboundlinks_urlstub_sxt elenca tutti gli url in uscita da ogni pagina. Facendo una ricerca con i vari domini base di halley, si possono elencare le pagine che contengono un link, raggrupparle per dominio di partenza, e risalire all’ente.

Gli errori sono molto probabili e forse andrà tutto ricontrollato a mano.

La stessa tecnica si può utilizzare per contare i link verso Twitter, Facebook, YouTube, Google e paccottiglia varia, che costituiscono, a mio parere:

Nel caso migliore (condividi questa pagina), pubblicità gratuita ad aziende private. Vi farebbe piacere trovare un link alla Philip Morris in ogni pagina del vostro comune?
Nel peggiore le nostre tasse sono utilizzate per pagare il lavoro che la PA svolge per generare e pubblicare contenuti infarciti di pubblicità su quelle piattaforme (video, post, etc).

mte90 · 22 Maggio 2021, 8:36am

Mi hanno segnalato questo "Nulla neppure in parte potrà essere copiato" comune - Cerca con Google
Progetti e iniziative/OnData e AgID - dati dei comuni in CC0 - Wikimedia Italia

Sembra che su anche questo fattore i vari comuni no sono messi a posto in base al cad quindi forse si potrebbe fare una scansione anche su questo testo?
Perchè hanno le licenze sbagliate.

mythsmith · 26 Maggio 2021, 7:47am

L’idea è ottima, e si presta ad essere realizzata su un indice testuale quale quello che sta producendo yacy.
La possibilità di eseguire query automatiche senza dover inserire captcha, o essere bannati, ed avendo un database limitato a monte verso i siti da analizzare, sono vantaggi enormi rispetto a google e compagnia.

Se mai finirà!
Ho attivato 5 nodi su computer che erano sulla via della discarica. Dopo problemi di configurazione vari, che hanno causato non poche interruzioni, sono solo a 3260 domini e 10 milioni di pagine analizzate.
Sto valutando se attivarne altri 3, veramente arcaici, ma temo sia solo una perdita di tempo perché hanno troppa poca ram per yacy.

-------- Messaggio originale --------
On 22 mag 2021, 10:46, Daniele Scasciafratte via forum.linux.it < nobody@discourse.example.com> ha scritto:

ferdi · 26 Maggio 2021, 9:29pm

Ciao @mythsmith, c’è la possibilità di vedere da qualche parte i risultati preliminari di questo lavoro con yacy? Se provo a visitare l’url che hai indicato, vengono chiesti riusername e password.