pcwTextExportr: OpenOffice Dokumente nach PDF, HTML und mehr konvertieren

Download zu diesem Artikel:

16.03.2009

Voraussetzungen

pcwTextExportr ist unter Windows 98, 2000, XP und Vista getestet und sollte hier problemlos laufen. Für den PDF-Export müssen Sie zusätzlich das Java Runtime Environment (http://java.sun.com)einrichten. Das Programm arbeitet unabhängig von Open Office oder Word. Diese müssen also nicht installiert sein. pcwTextExportr verarbeitet ODT-Dateien aus OpenOffice.org 2.x und 3.x und SXW-Dateien aus OpenOffice.org 1.x.
 
OpenOffice_xml.pngpcwTextExportr konvertiert die Dokumente zuerst in einer XML-Datei im Docbook-Format http://www.docbook.org. Docbook ist ein Sammlung von Standards für technische Publikationen.
 
Die erzeugte XML-Datei enthält nur die logische Struktur des ursprünglichen Dokuments, aber keine Hinweise auf die Formatierung.
 
Das Programm eignet sich vor allem für Anwender, die OpenOffice.org als Publishing-System für HTML, PDF oder für die Erstellung von HTML-Hilfen (CHM-Dateien) verwenden möchten und häufig Dokumente in diese Formate überführen müssen. Da sich das Programm auch über die Kommandozeile steuern lässt, kann die Konvertierung automatisiert werden. Die Einbindung über eine Makro in OpenOffice.org ist ebenfalls möglich.
 
pcwTextExportr setzt voraus, dass die Dokumente mit Formatvorlagen formatiert beziehungsweise strukturiert sind. Die Ausgabe in das Zielformat lässt sich über zahlreiche Parameter individuell bestimmen. Allerdings ist dazu eine gewisse Einarbeitungszeit und die Beschäftigung mit dem Docbook-Format erforderlich. Tiefergehende Anpassungen des Systems erfordern grundlegende Kenntnisse in XML/XSLT.
 

XML als Basisformat verwenden

In der Regel kommt es beim Konvertieren auf einen möglichst genaue Übertragung der Formatierungen und des Layouts an. Bei Docbook geht es dagegen eher um die Standardisierung von Dokumenten im Hinblick auf die flexible Weiterverarbeitung. Die XML-Dokumente lassen sich beispielsweise in Datenbanken ablegen, schnell durchsuchen und in unterschiedliche Formate wie HTML, PDF oder RTF konvertieren. Die Struktur der Dokumente kann dabei für die automatische Nummerierung von Überschriften oder für eine Navigationsmöglichkeit ("Vor", "Zurück", "Zum Anfang") dienen. Entscheidend ist, das sich aus einer Text-Quelle Dokumente für unterschiedliche Anwendungsbereiche erzeugen lassen: Web, Druck oder Nachschlagwerk.
 
Die Konvertierung erfolgt unter Verwendung unterschiedlicher Formatvorlagen. Für XML sind das XSL-Stylesheets. Die Anwendung eines Stylesheets auf die Vorlage wird als Transformation bezeichnet. Dazu kommt ein XSL-Prozessor wie Xsltproc (http://xmlsoft.org/XSLT/) oder Saxon (http://saxon.sourceforge.net) zum Einsatz.
 
Theoretisch können Sie mit pcwTextExportr jedes beliebige Dokument in eins der Zielformate konvertieren. In der Praxis lohnt es sich jedoch nur bei längeren Dokumenten, die mit passenden Formatvorlagen formatiert sind. Geeignet sind vor allem Texte, die sich gut strukturieren lassen, beispielsweise jede Art von wissenschaftlichen Arbeiten, Programm-Dokumentationen oder andere Publikationen.
 
Im einfachsten Fall reicht es aus, die Dokumente nur mit den Formatvorlagen "Überschrift 1", "Überschrift 2" usw. zu formatieren. Wer alle Vorteile von Docbook verwenden will, muss allerdings spezielle Formatvorlagen verwenden.
 

Einschränkungen

Einschränkungen bei der Formatierung ergeben sich vor allem aus den Beschränkungen des Zielformats. So ist es beispielsweise in HTML nicht möglich, jede Darstellung in einem OpenOffice.org-Dokument exakt nachzubilden. Weitere Einschränkungen ergeben sich aus dem Beta-Status der verwendeten Tools. Nicht jede gewünschten Funktion ist schon enthalten. Aber das nächsten Update kommt bestimmt ... und außerdem sind alle verwendeten Tools Open Source oder wenigstens kostenlos erhältlich.
 
Wichtig: Bilder müssen immer einen Eintrag unter „Alternativtext“ (Erreichbar nach einem Doppelklik uaf eine Bild in OpenOffice) besitzen. Sonst wird das Bild zwar extrahiert, erscheint aber nicht im Text. Außerdem müssen die Bilder in das Dokument eingebettet und nicht nur verknüpft sein. Die Einbettung erfolgt am einfachsten per Drag & Drop aus dem Windows Explorer auf das Textdokument.
 

Vorteile

HTML-Dateien lassen sich mit unterschiedlichen Programmen erstellen: HTML-Editoren, Standard-Editoren oder einer Textverarbeitung wie Microsoft Word oder OpenOffice.org. Je nach Aufgabe und Anspruch wird der Anwender zu dem einen oder anderen greifen. Bei größeren Seiten ist außerdem die automatische Generierung von HTML aus einer Datenbank möglich. Die Fähigkeiten und Möglichkeiten dieser Programme will und kann das Docbook-System nicht ersetzen. Wenn es aber darum geht viele oder größere Dokumente zu konvertieren und mit einer Navigationsstruktur zu versehen, kann Docbook seine Stärken zeigen. Der Anwender kann dabei die Texte mit der gewohnten Textverarbeitung erstellen und muss lediglich bestimmte Formatvorlagen verwenden (was ohnehin sinnvoll ist).
Aus einem Dokument lassen sich unterschiedliche Zielformate generieren, ohne das am ursprünglichen Dokument etwas geändert werden muss. Enthaltenen Bilder, Hyperlinks und Verzeichnisse werden automatisch übernommen. Docbook berücksichtigt beim Konvertieren auch unterschiedliche Sprachen. Die Ausgabe lässt sich so steuern, dass die Navigationselemente in der gewünschten Zielsprache erscheinen.
 

Weitere Möglichkeiten

Mit Docbook ist es auch möglich einer ganze Website automatisch zu generieren. Für Anwender, die kein Content Management System (CMS) zur Verfügung haben, ist das eine interessante Alterative. Weitere Infos finden Sie unter http://docbook.sourceforge.net/projects/website/ .
 

Installation

Entpacken Sie die ZIP-Datei in ein beliebiges Verzeichnis.
 
Wichtig: Der Pfad darf keine Leerzeichen enthalten. Wenn Sie den PDF-Export verwenden möchten, benötigen Sie eine Java Runtime. Wir haben die Version 1.6.0 verwendet.
 
Windows 95, 98 oder ME: Wenn Sie ein 9x-System verwenden, müssen Sie die Datei FOP.BAT im Verzeichnis pcwTextExportr\fop anpassen. Öffnen Sie die BAT-Datei in einem Editor und tragen Sie hinter "set LOCAL_FOP_HOME=" den Pfad zum Installationsverzeichnis ein, beispielsweise "C:\pcwTextExportr\fop\" (mit "\" am Ende). Unter Windows 2000/XP sollten Sie darauf achten, das sie Schreibrechte im Installationsverzeichnis besitzen. Das Tool muss hier einige temporäre Dateien ablegen.
 

Erste Tests

Anschließend starten Sie das Programm pcwTextExportr.exe. Auf der Registerkarte "Optionen" können Sie einen Zielpfad für die Ausgabedateien bestimmen. Bleibt dieser leer, verwendet das Programm den Ordner "out" im Installationsverzeichnis. Unter "Konvertieren in" wählen Sie die gewünschte Option für das Zielformat aus, beispielsweise "PDF". Rechts davon sehen Sie in der Liste die Parameter für die Konvertierung. Das Eingabefeld enthält den Pfad zu einer XSL-Vorlagendatei. Darunter stehen die Parameter, beispielsweise "body.font.master" für die Schriftgröße im PDF-Dokument oder "paper.type" für das Papierformat. Informationen zu den Parametern erhalten Sie über "Hilfe, Docbook". In dem englischsprachigen Dokument klicken Sie auf "Reference Documentation,", "DocBook XSL Stylesheet Reference Documentation" und "FO Parameter Reference" (für PDF-Dokumente).
 
Damit Sie die Parameter bei unterschiedlichen Einstellungen nicht jedes Mal ändern müssen, sind die Parameter in Profilen organisiert. Unter "Parameter-Profile" wählen Sie ein Profil zwischen "0" und "9" aus und ändern dann die gewünschten Einstellungen.
 
Beispieltext.pngProbieren Sie das Programm am besten mit einem der Beispieldokumente im Verzeichnis "pcwTextExportr\in" aus. Wechseln Sie auf die Registerkarte "Konverter" und ziehen sie die Datei TESTDOC.ODT auf das Eingabefeld unter "Datei(en)" oder öffnen Sie die Datei über die Schaltfläche recht vom Eingabefeld. Klicken Sie auf "Start". Warten Sie bis die Konvertierung abgeschlossen ist. Im Zielverzeichnis finden Sie danach die konvertierte Datei. Wenn Sie auf der Registerkarte "Optionen" die Klickbox vor "Dokument automatisch öffnen" aktivieren, zeigt die verknüpfte Anwendung das Dokument automatisch.
 
Die Datei beispiel_de.ODT dient als Orientierung für selbst erstellte Dokumente. Sie zeigt die Verwendung der verschiedenen Absatz-und Zeichenvorlagen für die Strukturierung eines Docbook-Dokuments.
 
Hinweis: Beim Export von DOC-Dateien gelten einige Einschränkungen. In Dokumenten enthaltene Bilder werden nicht berücksichtigt und Fußnoten erscheinen immer als Endnoten. Bei der Konvertierung in Wikitext ist die Darstellung von Aufzählungen und Tabellen meist fehlerhaft, und Sie müssen den Wikitext von Hand nachbearbeiten. Es ist daher besser, DOC-Dateien erst über Open Office in SXW-Dateien umzuwandeln.
 

pcwTextExportr 2.1 ScreenshotKonfiguration

Auf der Registerkarte "Optionen" bestimmen sie unter anderem das Aussehen der konvertierten Dokumente. Änderungen der Konfiguration speichert das Programm automatisch in den Dateien pcwTextExportr.xml und pcwTextExportrProfile.xml im Programmverzeichnis. Das XML-Format ermöglicht Änderungen auch über einen Text-Editor. Das ist vor allem praktisch, wenn Sie neue Profile auf Basis der vorhandenen Profile erzeugen wollen. Achten Sie darauf, das sich die Struktur der Dateien nicht ändert, sonst kann pcwTextExportr abstürzen. Das Programm überprüft meist nicht, ob die Parameter sinnvoll sind.
Wenn Sie die Konfigurationsdateien löschen, legt pcwTextExportr sie automatisch mit den Standardwerten neu an.
Ziel-Pfad: Wenn Sie auf der Registerkarte "Optionen" unter "Zielpfad für Ausgabe-Dateien" nichts eintragen, verwendet das Programm standardmäßig den Ordner "Out" im Installations-Verzeichis. Beim Konvertieren legt es hier einen neuen Ordner mit dem Namen des Dokuments an. Bilder landen im Unterverzeichnis "Images".
Ausgabeformat: Unter "Konvertieren in" wählen Sie das Ausgabeformat.
  • HTML (ein Dokument)
  • Das Programm konvertiert die Eingabedatei zu einer HTML-Datei im Zielverzeichnis.
  • HTML (mehrere Dokumente)
  • Das Programm erzeugt aus der Eingabedatei mehrere HTML-Dokument. Die Startdatei heißt index.html. Die Namen der anderen Dateien beginnen mit ar01s01.html. Für die Aufteilung sind die Formatvorlagen maßgeblich. Einer Datei kann beispielsweise einen Abschnitt enthalten, der mit Überschrift 1 beginnt. Die Aufteilung lässt sich aber über Parameter steuern, so dass sich bei Bedarf auch für Unterabschitte jeweils eine Datei erstellen lässt.
  • PDF
  • Erzeugt ein PDF-Dokument. Die Überschriften lassen sich für die Navigation verwenden (Lesezeichen/Bookmarks im Adobe Reader)
  • HTML-Help
  • Ist diese Option aktiv, erzeugt das Programm Dateien wie bei "HTML (mehrere Dokumente)". Zusätzliche entstehen die Dateien HTMLHELP.HHP und TOC.HHC zur Weiterverarbeitung im Microsoft HTML Help Workshop (siehe: HTML-Hilfe Dateien erzeugen).
  • RTF
  • Erzeugt eine RTF-Datei. Diese Option ist vor allem interessant, wenn auf einem Rechner OpenOffice.org nicht installiert ist und Sie eine SXW- oder ODT-Datei in einem anderen Programm öffnen möchten.
  • Wikitext
  • Erzeugt eine TXT-Datei im Wikitext-Format (http://www.mediawiki.org)

 

Parameter für die Formatierung verwenden

Das Aussehen der konvertierten Datei bestimmen Sie über Parameter, die Docbook während der XSL-Transformation verwendet. Informationen über die Parameter erhalten Sie über "Hilfe, Docbook". In dem englischsprachigen Dokument klicken Sie auf "Reference Documentation,", "DocBook XSL Stylesheet Reference Documentation" und beispielsweise "FO Parameter Reference" (für PDF-Dokumente).
 
Um einen Parameter zu ändern klicken Sie einfach in die gewünschte Zelle und tragen den neuen Wert ein. Um einen neuen Parameter zu erstellen, gehen Sie in die erste Zelle der letzten Zeile und drücken <Cursor unten>. Dadurch entsteht eine neue Zeile, in die Sie die Werte eintragen können.
 
Ein Beispiel: Sie möchten bei Anmerkungen im Text auch ein entsprechendes Icon vor dem Anmerkungstext. In der Dokumentation finden Sie unter "Admonitions" den Parameter "admon.graphics". Unter "Synopsis" steht
 
<xsl:param name="admon.graphics" select="0"></xsl:param> 

 

Das bedeutet, das der Parameter standardmäßig den Wert "0" hat, Grafiken also nicht angezeigt werden. Um das Verhalten zu ändern, tragen Sie in pcwTextExportr in die Spalte "Parameter" "admon.graphics" ein und unter "Wert" "1".

 

Profile

Damit Sie die Parameter bei unterschiedlichen Einstellungen nicht jedes Mal ändern müssen, sind die Parameter in Profilen organisiert. Unter "Parameter-Profile" wählen Sie ein Profil zwischen "0" und "9" aus und ändern dann die gewünschten Einstellungen.
 

Customization Layer

Nicht alle Parameter lassen sich direkt in pcwTextExportr einstellen. Komplexe, mehrgliedrige Parameter müssen Sie in einer eigenen XSL-Datei, dem sogenannten Customization Layer unterbringen. Ein Beispiel dafür ist die PDF-Konvertierung. In pcwTextExportr ist hier bereits der Pfad docbook\fo\custom.xsl eingetragen. Einige Beispiele sind in der XSL-Datei auskommentiert. Sie können die Funktion bei Bedarf aktivieren. Ein Beispiel dafür ist
 
<!-- table with colored head --> <!--
<xsl:template match="thead">
<fo:table-header background-color="#66CCFF">
<xsl:apply-templates/>
</fo:table-header>
</xsl:template>
-->

Wenn Sie die Kommentarzeichen ("<!-- ... -->") entfernen, wird der Hintergrund des Tabellenkopfes farbig dargestellt.

Ein weitere Beispiel:
 
<xsl:attribute-set name="section.title.level1.properties">
<xsl:attribute name="font-size">
<xsl:value-of select="$body.font.master * 1.8"/>
<xsl:text>pt</xsl:text>
</xsl:attribute>
</xsl:attribute-set>

Durch diese Anweisungen bestimmen Sie die Schriftart und Schriftgröße für Kapitelüberschriften relativ zur Standardgröße.

Weitere Beispiele finden Sie im Docbook-FAQ unter http://www.dpawson.co.uk/docbook.
 

PDF und Seitenumbrüche

Bei PDF-Dateien kann es vorkommen, das eine Kapitelüberschrift als einzige Zeile am Seitenende steht. In diesem Fall hat es keinen Zweck einen manuellen Seitenumbruch im OpenOffice.org-Dokument unterzubringen. Dieser wird ignoriert. Um einen Seitenumbruch einzufügen öffnen Sie die XML-Datei nach der Konvertierung in einem Editor und fügen vor einem Kapitelbeginn die Zeile "<?custom-pagebreak?>" ein. Das Ergebnis sieht dann beispielsweise so aus:
 
</section> <?custom-pagebreak?> <section> <title>Tabellen</title>

Verwenden Sie dann die XML-Datei als Quelldokument und kovertieren Sie dieses Datei mit pcwTextExportr.

Dokumentvorlagen

Um alle verfügbaren Docbook-Funktionen nutzen zu können, müssen Sie OpenOffice.org-Dokumente auf der Basis einer speziellen Dokumentvorlage erstellen. Im Verzeichnis "Vorlagen" finden Sie die Datei OOO2SBK.STW (für Openoffice 1.x) und OOO2SBK.OTT (für Open Office 2.x) aus dem ooo2sbk-Paket von Éric Bellot. Kopieren Sie die Datei in das Vorlagenverzeichnis. Unter Windows ist das beispielsweise C:\Programme\OpenOffice.org1.1.2\user\template. oder C:\Dokumente und Einstellungen\<Benutzername>\Anwendungsdaten\OpenOffice.org2\user\template (Open Office 2.x) Erstellen Sie neue Dokumente dann über "Datei, Neu, Vorlagen und Dokumente" und wählen Sie unter "Vorlagen" die neue Vorlage "Docbook" aus. Zur Verwendung der Formatvorlagen aus der Dokumentvorlage finden Sie Beispiele in en Datien beispiel_de.sxw und beispiel_de.odt.
 

HTML und CSS

Das Format der HTML-Dateien bestimmen Sie über eine CSS-Datei. Den Namen und Pfad bestimmen Sie über den Parameter "html.stylesheet". Verwenden Sie nur relative Pfadangaben, beispielsweise ../common/dbk.css. Auf dem Webserver müssen Sie die CSS-Datei dann in das entsprechende Verzeichnis kopieren.
 

pcwTextExportr per Batch/Makro starten

Sie können pcwTextExportr auch über die Kommandozeile, beispielsweise mit einer Batch-Datei, oder per Makro steuern. Beispieldateien dafür liegen im Ordner pcwTextExportr\Macos. Eine Kommandozeile sieht etwa so aus:

pcwTextExportr -file:<Datei> -p <Pofile> -c <Konverter> -auto=1 -show=1

<Datei> enthält den kompletten Pfad und Namen der zu konvertierenden Datei. Mit "-p" legen Sie die Nummer des Profile und mit "-c" den Konverter fest. Die Zählung beginnt jeweils mit "0". "-p 1 -c 2" steht beispielsweise für Profil "0" und Konverter "PDF". Wenn "-p " und/oder "-c" nicht angeben sind, verwendet pcwTextExportr die zuletzt gewählten Einstellungen. "-auto=1" starten die Konvertierung und schließt das Programm danach automatisch.

Ein Open Office oder Word-Makro muss nur den Namen des aktuellen Dokuments und die Parameter an pcwTextExportr übergeben. Die Beispieldateien im Verzeichnis pcwTextExportr\Macos enthalten eine kurze Installationsanleitung und den Quellcode für beide Programme.
 

HTML-Hilfe Dateien erzeugen

Eine HTML-Hilfe erstellen Sie mit dem kostenlosen Microsoft Programm "HTML Help Workshop". Als Quelle benötigen CHM-Datei.pngSie mehrer HTML-Dokumente - jeweils eins für jeden Abschnitt in der Hilfedatei. Eine Beispieldatei finden Sie unter "In\SERAPION.SXW" und "In/SERAPION.ODT". Wählen Sie in pcwTextExportr die Option "HTML-Help", und konvertieren Sie die Datei. Kopieren Sie die Datei Out\Common\DBK.CSS nach In\Serapion. Die CSS-Datai bestimmt beispielsweise Schriftart und Schriftgröße der HTML-Dateien. Im Zielverzeichnis öffnen Sie die Datei HTMLHELP.HHP. Im HTML Help Workshop müssen Sie dann nur noch auf "File, Compile" gehen, und auf die Schaltfläche "Compile" klicken. Das Programm erzeugt die Hilfedatei HTMLHELP.CHM im Verzeichis "Out".