Statistiche sulla pubblicazione in formati aperti da parte della PA

Come accennavo, ho avuto diversi problemi di performance (molti in realtà causati da default strani di yacy).
Ho quindi preferito proteggere il cluster dietro password, per eliminare la variabile query esterne.

Inoltre, non capendo ancora bene come si fa un cluster privato secondo yacy, al momento ho semplicemente 5 istanze isolate tra le quali sono suddivisi gli host casualmente, man mano che si liberano slot di crawling (crawl.py). Per avere un risultato completo dovresti quindi ripetere la query sui 5 nodi, come fa solr.py (cosa che accadrebbe automaticamente se costituissero un vero cluster yacy).
Non è molto utilizabile, quindi per ora rimane chiuso al pubblico.

I risultati sui formati file invece sono nel notebook citato prima e nella cartella output come json.

-------- Messaggio originale --------
On 26 mag 2021, 23:39, Ferdinando Traversa via forum.linux.it < nobody@discourse.example.com> ha scritto:

Ho studiato un po’ la diatriba sui formati ooxml. Da quel che ho capito, Microsoft è riuscita a sfruttare la standardizzazione per coprire la propria arretratezza, creando confusione col nome “office open”, proponendo uno standard iso e poi implementandolo solo in parte ed anni dopo.

Ooxml può infatti significare 3 cose diverse:

  • uno “standard” fasullo non pienamente specificato e ratificato dalla ECMA
  • uno meno fasullo concesso dalla ISOZ per permettere la transizione, ISO Transitional,
  • Il vero standard ISO Strict, implemtato solo con grave ritardo e tutt’ora non predefinito

Dunque, occorre classificare gli ooxml anche a seconda che siano ISO Strict, che sarebbe veramente open, oppure gli altri 2, che non possono consentire una vera interoperabilità. Non dovrebbe essere troppo difficile.

Ho capito bene, @italovignoli? ISO Strict è al pari di ODF o ci sono discriminanti? ( a parte le 6500 pagine contro 800…)

Uno standard fasullo che non usa standard esistenti come il calendario gregoriano…

Purtroppo il tema non è se sia uno standard elegante, ma solo se sia formalmente aperto. In tal caso, non si può dire nulla ad una amministrazione che decida di adottarlo: rispetta la legge.

No, non sta rispettando la legge perché i file OOXML prodotti sicuramente sono della variante non-standard transitional.

Quindi occorre dimostrarlo classificando questi ooxml, altrimenti ci si sentirà rispondere: “ma ooxml è standard aperto quanto odf, che volete ancora?”.

È questo che sto cercando di capire.
Anche una iniziativa di sensibilizzazione di questo tipo avesse successo, il risultato sarà un generico impegno a formare gli operatori a cliccare sul bottone giusto in modo da salvare lo strict, e magari comprare l’ultima licenza di office se quello che hanno è troppo vecchio per lo strict.

Di certo non adotteranno odf in quanto standard aperto, se lo (può essere) anche ooxml… o mi sfugge qualcosa?

1 Like

Nella mia esperienza ooxml è uno standard come gli odf, il problema è che a livello tecnico è un macello.

Cioè cambia ogni due per tre e anche in base alla versione di office, quindi riuscire a catalogare le varie versioni usate nei comuni/ecc potrebbe essere un altro modo per dimostrare quanto di standard abbia solo la copertina. Il che comporta altri processi per assicurarsi che sia un formato che segue la legge rispetto agli odf che non hanno tutte queste complicazioni.

Bene, ho aggiunto l’identificazione strict e aggiornato i grafici al conteggio attuale:

Documents 208063
Missing date: 9569
Extracted from archives: 31569
Hosts 3401
{'msoffice': 66300, 'msofficexml': 78657, 'opendocument': 20990, 'richtext': 10285, 'ooxml': 50}

Siamo al 15% dei domini, scelti casualmente, e ci sono solo 50 documenti ooxml strict! (marcati come ooxml, mentre quelli fake sono msofficexml).
Nel json ho salvato anche le versioni di office utilizzate per salvare questi file: intendevo utilizzarle per dimostrare come, pur avendo a disposizione la possibilità di salvare strict sin dal 2010 direi, non viene mai utilizzata perché volontariamente “nascosta”. Essendo i numeri così bassi, non sarà necessario…

A questo punto direi che è dimostrato che la standardizzazione di ooxml ha impedito alle PA di adottare uno standard ISO per i propri documenti per ben 15 anni (compreso lo stesso ooxml strict, anche se ci sono seri dubbi che possa essere considerato uno standard internazionale per gli scopi della libera concorrenza).

2 Likes

@italovignoli ti piace la ricerca?
Per chi vuole vedere il paper lo può scaricare da sci-hub

1 Like

Nota ulteriore: LibreOffice a quanto pare non supporta il salvataggio in OOXML strict. A questo punto è utile classificare l’app che ha prodotto il documento, per capire quanti ooxml sono, paradossalmente, prodotti proprio da libreoffice.

Update: dopo un percorso travagliatissimo, siamo a 833k documenti, ma il succo non cambia: la promessa dello standard OOXML Strict ha annientato sia lo standard OASIS, che sé stesso.