3.4

Sezione 3: Autori

Q 3.4: Come faccio a convertire le mie informazioni in formato XML?

Scrivi o usa un convertitore in un linguaggio che capisca XML.

 

Se il formato di file sorgente ha qualche tipo di struttura consistente e riconoscibile, anche semplici spazi o interruzioni di riga, solitamente è possibile scrivere routine corrispondenti a sistemi in molti linguaggi per isolare le informazioni che ricadono i tali sistemi e riprodurli con i tag attorno.

XSLT2 ha una sintassi corrispondente ad un sistema che esattamente questo tipo di ‘riconversione’ e altri elaboratori come Omnimark offrono caratteristiche simili.  Queste conversioni possono anche creare un formato temporaneo ‘nel mezzo’ al quale viene applicata una seconda conversione per creare il formato XML finale.

Se i file sorgente sono in un formato conosciuto (CVS, per esempi), ci potrebbero essere delle routine esistenti disponibili da scaricare o comprare che possono creare qualche formato XML. Una seconda conversione da XML a XML potrebbe poi essere usata per creare il formato finale richiesto.

I sistemi di gestione di database potrebbero avere una routine incorporata ‘esporta in XML’ che crea un formato ‘ nel mezzo’ simile per la successiva conversione (vedi Come faccio a inserire o rimuovere il mio XML dal mio database? per un esempio).

Se le informazioni sono completamente non formattate, o formattate male o in maniera inconsistente che la conversione automatizzata è impossibile, dovrà essere modificata manualmente nel formato XML. I documenti di elaboratore di testo sono un esempio classico. Ci sono aziende che si specializzano in questo tipo di lavoro, particolarmente attorno alla Costa del Pacifico, che hanno una grande esperienza nel lavorare con qualsiasi stranissimo e meraviglioso tipo di formato, e che rimandano indietro XML a tutti gli effetti.

Due formati frequentemente richiesti come fonti sono supportati al meglio:

LATEX

I documenti LATEX ben formati (quelli che non usano macro fatte in casa, specialmente quelli che usano semplice TEX o comandi obsoleti) possono essere convertiti usando il pacchetto pacchetto TEX4ht. Al momento della scrittura (2015) questo non è supportato data la morte prematura del suo autore, ma è completamente funzionale.

Il TEX4ht può convertire da in HTML e ODF (formatoOpenOffice) in vari modi, dunque il file risultante può essere facilmente aperto in  OpenOffice e salvato come file .docx. Ci sono opzioni per le linee di comando per il programma oowriter (o lowriter se stai usando Libre Office) che permettono la conversione preparata in massa..

Sono disponibili altre infrastrutture in alcuni editor e servizi online (come blog e forum che supportano la formattazione LATEX nelle pagine web). Queste possono essere anche usate per la conversione.

Microsoft Word

I file Word(.docx) sono file Zip che contengono documenti XML insieme alle immagini e i fogli di stile associati. Di default, i documenti di Wordconsistono solo di paragrafi (elementi w:p). Tutti i metadati riguardanti la struttura dei documenti sono forniti come font e informazioni di spaziatura, che possono essere interpretati in maniera affidabile solo da un umano, rendendo la conversione significativa eccezionalmente difficile.

Tuttavia, se gli stili nominati (dal menu di stile incorporato o creato dall’autore) sono usati in modo consistente, è possibile scrivere uno script XSLT2 per farli coincidere e ottenere markup XML più utilizzabili.

Alcuni editor (ad es. XMLMindAbiWord) e altri sistemi non forniscono la conversione da Word, sia ad un formato puramente visivo (HTML), imitando l’aspetto dell’originale, sia ad un vocabolario ‘semantico’ come DocBook o DITA.

Il metodo XSLT2 si applica anche a OpenOffice/LibreOffice, i quali a loro volta memorizzano XML in un file Zip. Il markup è diverso, ma può essere convertito più o meno nello stesso modo.

Leave a Comment

Your email address will not be published. Required fields are marked *