Logo von Mediengestaltung Torsten Kelsch

PDF-Konverter Able2Extract Professional 12

Ich habe vom kanadischen Softwarehersteller Investintech.com Inc. ein Rezensionsexemplar der Ende 2017 erschienenen Professional-Version 12 der PDF-Software Able2Extract erhalten.

Able2Extract Professional 12 ist eine Software, mit der man PDF-Dokumente auf vielfältige Weise bearbeiten kann. Doch das ist nicht alles: Es lassen sich PDF-Dateien in verschiedene Office-Formate konvertieren. Außerdem ist eine Texterkennung (OCR) enthalten.

Able2Extract-Pro-Logo

Inhalt

Testumgebung

Getestet habe ich diesmal die Linux-Version von Able2Extract Professional 12, und zwar unter Xubuntu 17.10 (64-Bit); vor einiger Zeit hatte ich die [Version 11 unter Windows](https://www.torstenkelsch.de/blog/2016/buero/able2extract-professional-11/) getestet. Der damalige Blogartikel befasste sich mit der Umwandlung und Bearbeitung von PDF-Dateien. Diesmal möchte ich mich insbesondere mit der OCR-Funktionalität befassen. Natürlich interessiert mich auch, wie zuverlässig die aktuelle Version unter Linux läuft.

Download

Man kann sich eine Testversion herunterladen (nicht nur für Linux, sondern freilich auch für Windows oder Mac), die sich später in eine Vollversion umwandeln lässt, nachdem man eine Lizenz gekauft und einen Lizenzschlüssel erhalten hat. Man hat sieben Tage Zeit, um die Software auszuprobieren. Diese Zeitspanne sollte ausreichen, um entscheiden zu können, ob Able2Extract das Richtige für einen ist. Angesichts der Tatsache, dass eine Lizenz lebenslang gültig bleibt, und gesetzt den Fall, dass man öfters PDF-Dateien in andere, bearbeitbare Format umwandeln möchte, wird sich ein Kauf vermutlich lohnen.

Able2Extract-Pro-Box

Installation

Im Anschluss an die Installation der Software unter Linux, am besten sogar schon vorher, ist noch ein kleiner Handgriff auszuführen:

Man muss die Datei /etc/environment als Superuser öffnen, übers Terminal etwa folgendermaßen (in diesem Beispiel wird als Quelltexteditor Geany benutzt):
sudo geany /etc/environment
Nun wird man nach dem Root-Passwort gefragt, und nach dessen Eingabe wird sich der Editor öffnen, sodass man nun die Datei bearbeiten kann. Man trägt den folgenden Code als erste Zeile ein:
QT_QPA_FONTDIR=/
Danach speichert man die Datei und meldet sich vom Sytem ab und wieder an oder startet den Computer einmal neu. Anschließend sollte Able2Extract einwandfrei laufen. Bei mir hat das jedenfalls funktioniert.

Falls man jedoch keine Systemdateien ändern kann, weil man keine Root-Berechtigung hat, kann man Able2Exctract aus einem Terminal heraus starten mit den folgenden Zeilen (leider muss man das dann aber bei jedem Programmstart machen):
export QT_QPA_FONTDIR=/
/opt/investintech/a2ep/bin/Able2ExtractPro

Funktionen

Leider ist Able2Extract nicht in deutscher Sprache erhältlich. Allerdings ist die Programmoberfläche sehr gut gestaltet, sodass man sich auch mit minimalen Englischkenntnissen schnell zurechtfindet.

Dateien öffnen

Nach dem Starten des Programms fallen die beiden Menüpunkte Open und Create in der bebilderten Menüleiste auf; die meisten anderen Menübilder sind augegraut.

Able2Extract, Open/Create

Mit Open können PDF-, Text- und Bilddateien geöffnet werden.

Mit Create lassen sich lediglich Bilddateien in diversen Formaten öffnen; doch der Unterschied ist, dass sie sofort umgewandelt werden und als PDF gespeichert werden können.

Able2Extract, Create

Able2Extract, Create/Convert

Es lassen sich mehrere Dateien öffnen, egal ob PDF-, Text- oder Bilddateien, und gleichzeitig in Able2Extract vorhalten; das Programm bietet eine Leiste, in der man zwischen den Dateien durch das Anklicken von Registerkartenreitern hin und her schalten kann. Diese Tabs lassen sich sogar ganz einfach mit der Maus umsortieren, was bei sehr vielen geöffneten Dateien für Ordnung sorgen kann.

Able2Extract, verschiebbare Tabs

Die Ansicht lässt sich auf bis zu 400 % vergrößern und auf bis zu 5 % verkleinern. Es sind einige Vergrößerungs- und Verkleinerungsstufen voreingestellt. Wenn ich die Zahl per Hand eintippte, was auch möglich ist, ist das Programm bei mir zwei Mal abgestürzt – bei weiteren Versuchen dann allerdings nicht mehr.

Able2Extract, Zoom

Konvertieren

PDF-Dateien konvertieren

Haben wir mit Open eine PDF-Datei ins Programm geladen, befindet sich das Programm zunächst im Konvertierungs-Modus, der weiter unten genauer vorgestellt wird. Wir können auch in den Bearbeitungsmodus umschalten, doch dazu später mehr.

Textdateien konvertieren

Es lassen sich nur Textdateien mit der Dateiendung .txt öffnen; Textdokumente zum Beispiel mit Endung .rtf, .md oder ohne Endung werden im Öffnen-Dialog gar nicht angezeigt. Das ist auch sinnvoll, damit wirklich nur Reintextdateien geöffnet werden. Rich-Text-Dokumente beispielsweise enthalten Formatierungsanweisungen; Markdown-Dokumente hingegen sind Reintextdateien und können problemlos so umbenannt werden, dass sie statt der Endung .md die Endung .txt tragen; sie sind dann auch von Able2Extract konvertierbar.

Bilddateien konvertieren

Bilddtateien lassen sich gut in andere Bildformate umwandeln. Angeboten werden alle wichtigen Dateiformate:

  • BMP
  • JPG
  • PNG
  • GIF
  • TIFF

Able2Extract, Bilder konvertieren

Man kann auch ankreuzen, dass in ein Schwarz-Weiß-Bild umgewandelt werden soll; das hat bei meinem Test aber nur in die Formate JPG und PNG funktioniert. Allerdings wird so eine Funktion wohl auch selten benötigt werden.

Als ich mein Testbild ins ODT-Format, also Open Document Text, umwandelte, kam die OCR-Funktion zum Zuge; der Text in dem Bild wurde also erkannt und ans Textverarbeitungsprogramm zur Weiterverarbeitung durchgereicht. Dazu später mehr.

Die Konvertierungs-Leiste

Die Dateiformate, in die unsere PDF- Text- oder Bilddatei umgewandelt werden kann, sind oben in der Konvertierungsleiste sichtbar, sie sind zunächst aber ausgegraut und nicht anklickbar. Wir müssen nämlich erst auswählen, ob die gesamte Datei (All) oder nur ein Teil (Area) umgewandelt werden soll.

Able2Extract, Gesamtdokument oder Bereich konvertieren

Hat man seine Wahl getroffen, werden auch die bislang ausgegrauten Schaltflächen farbig. Konvertiert werden kann in folgende Formate:

  • Excel
  • CSV
  • Word
  • PowerPoint
  • HTML
  • AutoCAD
  • Image

Diese Bezeichnungen in der Linux-Version sind ein wenig unglücklich gewählt, da sie sich, genauso wie in der Windows-Version, an den Namen der Programmbestandteile von Microsoft Office orientieren; jedoch wandelt die Linux-Ausgabe von Able2Extract natürlich in LibreOffice oder Apache OpenOffice um, also in Calc, Writer und Impress.

Konvertierung in ODT

Da ich selten mit Tabellenkalkulation wie Calc und noch seltener bis gar nicht mit Präsentationssoftware wie Impress arbeite, teste ich hier nur die Umwandlung in das für Writer typische Format ODT (Open Document Text). Nach der Umwandlung wird sofort das mit ODT-Dateien verknüpfte Programm gestartet, sodass man die Konvertierung gleich überprüfen und die Datei weiter bearbeiten kann. In meinem Fall ist TextMaker von SoftMaker die Standardanwendung für diverse Textformate, aber ich habe die erzeugte Datei auch mit LibreOffice Writer überprüft.

Sowohl TextMaker als auch Writer zeigen die konvertierte Zieldatei – nun, ich muss sagen: fast korrekt an – fette und kursive Formatierungen wurden leider nicht übernommen. Davon abgesehen, hat die Konvertierung einwandfrei funktioniert: Bilder wurden eingebunden und an den richtigen Stellen platziert, Einrückungen sind erhalten geblieben, die Schriftgrößen wurden richtig umgesetzt und die Schriftfarben wurden auch übernommen.

TextMaker

Writer

Die in der PDF-Datei eingebettete Schrift erschien zwar als die jeweils in den Textverarbeitungs-Programmen eingestellte Standardschrift – aber das ist keineswegs ein Fehler von Able2Extract, sondern die Schrift ist einfach auf meinem Testrechner nicht installiert und kann somit von der Textverarbeitung auch nicht eingesetzt werden.

Konvertierung in HTML

Auch eine Konvertierung in HTML ist machbar. Das kann sinnvoll sein, wenn man »auf die Schnelle« eine Textdatei so umwandeln muss, dass sie als Webseite angezeigt werden kann. Für ernsthaftes Webdesign ist das allerdings nicht brauchbar, da im erzeugten HTML-Code ziemlich wüst mit absoluten Positionierungen, vielen Spans und Divs gearbeitet wird – weder für die Anzeige auf kleineren Mobilgeräten noch für eine gute Suchmaschinenfreundlichkeit ist so ein Quellcode brauchbar, und für barrierearme Webseiten schon gar nicht. Aber, nun gut, für kleinere, vielleicht nur vorübergehende Veröffentlichungen oder die Anzeige auf dem eigenen lokalen PC mag so etwas akzeptabel sein.

Konvertierung in weitere Formate

Dass Able2Extract PDF-Dateien zuverlässig in diverse andere Office- und auch Bild-Dateiformate umwandeln kann, hatte ich in meinem Artikel über die Version 10 beschrieben; ich möchte mich hier nicht wiederholen, sondern dafür weiter unten lieber auf die in meinen vorigen Artikeln noch gar nicht behandelte Funktion der Texterkennung (OCR) zu sprechen kommen.

Able2Extract, In diverse Dateiformate konvertieren

Stapel-Konvertierung

Es ist nicht nur eine einzelne, sondern sogar auch eine Batch-Konvertierung möglich, also eine Stapelverarbeitung. Das ist sehr nützlich, wenn man mehrere Dateien in einem Rutsch in ein anderes Dateiformat umwandeln will.

Able2Extract, Batch-Konvertierung

Die Anmerkungen-Seitenleiste

Rechts befindet sich eine Seitenleiste, die uns erlaubt, verschiedene Annotations, also Anmerkungen, in der PDF-Datei anzubringen, und zwar sind das folgende:

  • Haftnotiz
  • Hyperlink
  • Stempel
  • Markierung
  • Unterstreichung
  • Wellenlinie
  • Durchstreichung
  • Textcursor-Zeichen als Bild
  • Anhang
  • Wasserzeichen

Able2Extract, Anmerkungen

Es lassen sich Farben und Transparenzen einstellen; bei der Markierung, mit der man wohl in aller Regel einen Textmarker simulieren will, empfiehlt sich zum Beispiel eine Transparenz von 20 Prozent. Alle Anmerkungen lassen sich in der Seitenleiste mit Kommentaren versehen und natürlich auch später noch einmal bearbeiten. Auch ein Löschen ist möglich.

Able2Extract, Textdekorationen

Beim Speichern bleiben die Anmerkungen erhalten und sind auch in einem PDF-Reader sichtbar – ich konnte im PDF-Betrachter Evince sogar auf die Anmerkungen klicken, worauf ein Kästchen erschien, in das ich eine Notiz schreiben konnte.

Able2Extract, Notizen

Fügt man ein Wasserzeichen ein, zum Beispiel den Text »Muster« oder »Für Ihre Unterlagen«, erscheint dieses Wasserzeichen sinnvoller Weise auf allen Seiten des Dokuments.

PDF-Dateien bearbeiten

Es lassen sich nur PDF-Dateien bearbeiten, also keine Textdateien oder Bilder.

Klickt man auf die Schaltfläche Edit in der Hauptleiste, kann man direkt in der PDF-Datei Änderungen am Text vornehmen – eine sehr praktische Sache, wenn es nur um kleinere Änderungen geht und die Datei sowieso wieder als PDF und gar nicht als Textdokument gespeichert werden soll, denn so kann man sich die Umwandlung sparen.

Text manipulieren

Man kann Zeilen löschen, Formen einfügen und natürlich Text einfügen.

Able2Extract, Formen einfügen

Beim Einfügen von Text ist praktisch, dass Führungslinien angezeigt werden, sodass man den einzufügenden Text, insbesondere wenn man die Ansicht vergrößert hat, genau positionieren kann, damit der neue Text zum Beispiel genau auf der richtigen Zeilengrundlinie liegt.

Able2Extract, Text einfügen

Text lässt sich auch schwärzen; der Text wird dann unkenntlich gemacht. Im Nachhinein lässt sich das Schwarz sogar in eine andere Farbe umwandeln.

Able2Extract, Schwärzen

Ich vermute, dass der übermalte Text beim Speichern aus dem Dokument entfernt wird; beim Öffnen mit einem PDF-Reader und Auswählen des Absatzes wurde jedenfalls der geschwärzte Text nicht mitmarkiert; und beim Kopieren und Einfügen des Absatzes wurde dieser Text auch nicht in die Textverarbeitung eingefügt. Deswegen gehe ich davon aus, dass er tatsächlich aus dem PDF-Dokument entfernt worden ist.

Beim Schwärzen muss man ein wenig Fingerspitzengefühl zeigen, denn allzu leicht zieht man einen zu hohen Rahmen auf, was bewirkt, dass Teile der darunterliegenden Zeile mitgeschwärzt werden.

Es sind noch einige andere Manipulationen möglich, die ich hier aber nicht alle behandeln möchte.

Was seltsam ist: Nach dem Speichern im Anschluss an das Einfügen einer der oben genannten Textmanipulationen und nach dem Öffnen in einem PDF-Reader erschien dort immer nur die vorletzte Änderung, nicht aber die letzte. Für dieses Fehlverhalten habe ich keine Erklärung und vermute, dass es sich um einen Bug handelt.

Seiten manipulieren

Bei der Änderung der Seiten hat man weitreichende Möglichkeiten:

  • löschen
  • extrahieren
  • verschieben
  • in der Größe ändern
  • aus PDF einfügen
  • einfügen
  • drehen
  • skalieren

Able2Extract, Seiten

Das Löschen und Verschieben dürfte sich von selbst erklären.

Mit Extrahieren ist gemeint, dass man eine oder mehrere Seiten des Dokumentes als neue Datei speichern kann; so etwas ist sinnvoll, wenn man nur bestimmte Passagen eines umfangreicheren Dokumentes benötigt.

Die Größe ändert man dann, wenn zum Beispiel ein ausländisches Seitenformat vorliegt, man aber etwa DIN A4 haben will, um das Dokument am Standarddrucker ausdrucken zu können.

Able2Extract, Resize

Seiten lassen sich aus bestehenden PDF-Dokumenten einfügen, doch man kann auch leere Seiten einfügen. Able2Extract ermöglicht es, diese leeren Seiten wie in einem Textverarbeitungs-Programm mit Text zu füllen. Ebenso gut lassen sich auch Bilder einfügen.

Able2Extract, Bilder einfügen

Das Drehen ist sinnvoll, wenn man von Hochformat auf Querformat umstellen will oder umgekehrt.

Und mit der Skalier-Funktion kann man Seiten vergrößern und verkleinern. Dabei werden alle Inhalte, auch eventuelle Anmerkungen, die man eingefügt hat.

OCR

Kommen wir nun endlich zu OCR (Optical Character Recognition), also zur Texterkennung oder optischen Zeichenerkennung. Im Abschnitt Bilddateien konvertieren hatte ich schon angedeutet, dass beim Konvertieren eines Bildes in ein Textformat diese automatische Texterkennung ihr Werk verrichtet. Doch zunächst einmal: Wozu braucht man so etwas?

Angenommen, man erhält ein PDF-Dokument, muss aber den darin enthaltenen Text weiterbearbeiten. Man könnte den Text auswählen, kopieren und ins Textverarbeitungsprogramm einfügen – oder man würde vielleicht auch Able2Extract benutzen wollen, um das Dokument zu konvertieren. Nun stellt man aber fest, dass das zugesandte PDF-Dokument nicht wirklich Text an sich enthält, sondern dass der Versender oder die Versenderin aus dem Text ein Bild gemacht hat. Ich habe so etwas alles schon mehrmals erlebt: Es war ein Textdokument eingescannt, als Bilddatei gespeichert und diese wiederum in eine PDF-Datei umgewandelt worden.

Vielleicht bekommt man aber auch gar kein PDF-Dokument, sondern ein Bild mit abfotografiertem Text.

Und in beiden Fällen greift Able2Extract. Denn die eingebaute OCR-Funktionalität kann Buchstaben und Ziffern in Bilddateien erkennen. Die Erkennungsrate halte ich für gut bis sehr gut; nachbearbeiten muss man allerdings erfahrungsgemäß fast immer, und eine möglichst gute Qualität des Ausgangsmaterials ist auch Voraussetzung.

Ich habe hier mal ein absichtlich schlechtes Ausgangsmaterial mit verschwommenen Buchstaben gewählt:

Beispielbild: Seitentyp wählen

Und Able2Extract hat sich gut geschlagen:

Able2Extract, PNG zu ODT

Deutsche Umlaute werden leider – auch bei gutem Ausgangsmaterial – nicht erkannt. Bei Able2Extract handelt es sich um eine kanadische Software, die auf englischsprachige Anwenderschaft ausgerichtet ist.

Hier zwei weitere Beispiele. Es wurden Ausdrucke eines Nadeldruckers eingescannt und als Bilddateien gespeichert. Ich habe sie ein wenig aufgebessert, doch die einzelnen Punkte, die der Drucker erzeugt hatte, sind noch deutlich sichtbar.

Beispielbild: Sieben Zwerge

Beispielbild: Spinnen

Jedenfalls hat bei diesem besseren Quellmaterial Able2Extract hervorragende Leistungen bewiesen. Lediglich der Punkt am Ende wurde nicht richitg umgesetzt – wäre es ein echter Punkt gewesen und nicht ein aus vier kleineren Punkten zusammengesetzer, wäre natürlich auch er korrekt erkannt worden. Diese Dinge kann man also nicht der OCR-Software anlasten, sondern das liegt an dem schlechten Ausgangsmaterial.

Beispielbild: Sieben Zwerge, konvertiert

Beispielbild: Spinnen, konvertiert

Preise

Eine unbegrenzt lange gültige Vollversion als Einzelbenutzer-Lizenz kostet knapp USD 150 (= ca. 125 EUR, je nach Währungskurs), eine Lizenz für einen Monat knapp USD 35 und ein [Upgrade](https://www.investintech.com/prod_updates.htm) von einer der älteren Professional-Versionen knapp USD 50. Ein [Upgrade](https://www.investintech.com/prod_updates.htm) von einer Standard- auf die aktuelle Pro-Version ist ebenfalls möglich, auch für knapp USD 50; denn bis zu Version 10 gab es auch Standard-Ausgaben, die, wenn ich mich richtig erinnere, keine OCR-Funktion beinhalteten. Alle diese Preise gelten für einen Download; will man eine CD, kommen noch entsprechende Kosten dazu.

Able2Extract-Pro-Box

Fazit

Able2Extract Professional 12 hat in allen getesteten Bereichen punkten können. Wenngleich sich ein paar kleinere Schwächen zeigten, gefällt mir das Programm insgesamt sehr gut. Für mich persönlich ist die gute Texterkennung (OCR) ein wichtiges Kriterium, da ich immer wieder mal Text aus Bildern benötige, ihn aber bei längeren Vorlagen nicht gern abtippen mag. Die sehr gute Umwandlung von PDF-Dateien in Office-Formate, die ich in früheren Blogartikeln ja bereits ausgiebiger getestet hatte, finde ich ebenfalls prima.

Wer das Programm selber testen möchte, kann sich, wie ganz oben schon erwähnt, eine Testversion herunterladen – für Windows, Mac oder Linux.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Mit Absenden dieses Kommentarformulars bestätigst du, dass du die Datenschutzerklärung gelesen hast und sich mit der Speicherung deiner Daten einverstanden erklärst. Deine Daten werden nur benötigt, um dich gegebenenfalls zwecks Beantwortung deiner Anfrage kontaktieren zu können, und werden weder an Dritte weitergegeben noch zu Werbezwecken missbraucht.