Ein gescanntes PDF sieht aus wie ein normales Dokument, aber man kann es nicht durchsuchen. Der Text ist als flaches Bild gespeichert — Pixel angeordnet, um wie Buchstaben auszusehen, keine echten Zeichen. Unmöglich, ein Wort auszuwählen, einen Satz zu kopieren oder Strg+F zu nutzen, um einen Abschnitt zu finden. Optische Zeichenerkennung (OCR) liest diese Pixel und konvertiert sie in echten Text, macht das Dokument durchsuchbar, zugänglich und kopierbar.
Essentiell für Anwälte, die 500-seitige eidesstattliche Erklärungen prüfen, HR-Teams, die Personalakten indizieren, Forscher, die mit digitalisierten Archiven arbeiten, und jeden, der versucht hat, eine Zahl in einem gescannten Kontoauszug zu finden. PDFKits OCR PDF verarbeitet Ihre gescannten Dokumente in Ihrem Browser, fügt eine unsichtbare Textebene über das Bild hinzu, ohne das visuelle Erscheinungsbild einer Seite zu verändern.
Ziehen Sie das gescannte PDF in den Upload-Bereich. Das Tool erkennt, ob die Datei bildbasiert ist oder bereits eine Textebene hat (in welchem Fall es Sie warnt, dass OCR nicht nötig ist). Für beste Ergebnisse sollten Scans 150 dpi oder mehr und einigermaßen gerade sein — eine im 30-Grad-Winkel fotografierte Seite produziert mäßige Erkennungsergebnisse.
OCR-Genauigkeit hängt vom Sprachmodell ab. Wählen Sie die Hauptsprache des Dokuments — Deutsch, Englisch, Französisch, Spanisch, Portugiesisch, Russisch, Chinesisch, unter anderen. Für mehrsprachige Dokumente (häufig in Grenzgebieten oder internationalen Verträgen) wählen Sie die dominierende Sprache. OCR mit falscher Sprache zu starten produziert unleserlichen Text, wo Zeichen mit visuell ähnlichen Buchstaben eines anderen Alphabets verwechselt werden.
Drücken Sie OCR ausführen. Das Tool analysiert jede Seite, identifiziert Textbereiche und baut eine durchsuchbare Textebene auf. Die Genauigkeit für sauberen, gut ausgerichteten gedruckten Text liegt typischerweise bei 97–99%. Handschriftliche Notizen, ungewöhnliche Schriften, sehr kleiner Text oder Scans mit niedrigem Kontrast reduzieren die Genauigkeit. Das resultierende PDF sieht visuell identisch zum Original aus, hat aber jetzt selektierbaren Text — öffnen Sie es und drücken Sie Strg+F, um zu überprüfen, dass die Suche funktioniert. Die Verarbeitung eines 30-seitigen Scans bei Standardauflösung dauert 20 bis 60 Sekunden je nach Gerät.
Eine Rechtsanwaltsfachangestellte einer Münchner Kanzlei erhält eine 600-seitige eidesstattliche Erklärung als gescanntes PDF von der Gegenpartei. OCR auf PDFKits zu starten verwandelt sie in ein durchsuchbares Dokument — sie findet jede Referenz zu einem Schlüsseldatum mit Strg+F, eine Aufgabe, die sonst das manuelle Lesen jeder Seite erfordern würde.
Ein Historiker, der Verwaltungsakten der 40er Jahre digitalisiert, fotografiert 200 maschinengeschriebene Seiten und konvertiert sie in PDFs. OCR verwandelt die Bildseiten in durchsuchbare Dokumente — Namen, Daten und Orte werden als Volltext indiziert, wodurch dokumentübergreifende Suche praktikabel wird.
Eine Klinik digitalisiert Patientenaufnahmebögen der letzten zehn Jahre. OCR macht Patientennamen, Geburtsdaten und Diagnosecodes innerhalb des digitalen Archivs durchsuchbar und reduziert drastisch die Zeit zum Abrufen einer bestimmten Akte.
Eine Steuerberatungskanzlei scannt 10 Jahre Papierrechnungen im Rahmen einer Betriebsprüfung. OCR über jeden Stapel macht Lieferantennamen, Rechnungsnummern und Beträge durchsuchbar — Prüfer lokalisieren jede Transaktion in Sekunden statt Scan für Scan zu durchsuchen.
Eine Studentin der vergleichenden Literaturwissenschaft lädt digitalisierte Bücher als PDFs-Bilder aus dem Bibliotheksbestand ihrer Universität herunter. OCR auszuführen macht sie durchsuchbar und ermöglicht, alle Vorkommen eines spezifischen Begriffs in drei 400-seitigen Bänden gleichzeitig zu lokalisieren.
OCR hat traditionell Desktop-Software erfordert — ABBYY FineReader kostet 199 USD als Dauerlizenz, Adobe Acrobat Pro 29,99 USD/Monat, und die meisten Online-OCR-Dienste laden Ihre Dokumente zur Verarbeitung auf ihre Server. PDFKits führt OCR direkt in Ihrem Browser mit Tesseract.js aus, der Browser-Portierung der Industriestandard-Tesseract-Engine.
| Merkmal | PDFKits | Adobe Acrobat Pro | ABBYY FineReader | iLovePDF OCR |
|---|---|---|---|---|
| Preis | Kostenlos, immer | 29,99 USD/Monat | 199 USD dauerhaft | 2 Aufgaben/Tag kostenlos |
| Dateien bleiben auf Ihrem Gerät | Ja | Nein — Cloud | Ja | Nein — Cloud |
| Mehrsprachige Unterstützung | Ja | Ja | Ja | Begrenzt |
| Ohne Installation | Ja | Nein | Nein | Ja |
| Tageslimit | Keines | Keines | Keines | 2/Tag |
Für vertrauliche Dokumente — Patientenakten, juristische Korrespondenz, Finanzunterlagen — ist Browser-OCR der einzige Ansatz, der garantiert, dass der Dokumentinhalt nie auf einen externen Server gelangt. Wichtig unter europäischer DSGVO, wo die Verarbeitung personenbezogener Daten durch einen Dritten rechtliche Begründung und einen Auftragsverarbeitungsvertrag erfordert.
OCR (optische Zeichenerkennung) konvertiert bildbasierte PDFs in durchsuchbare Dokumente. Sie brauchen es, wenn Sie weder Text in einem PDF auswählen noch suchen können — typischerweise weil es vom Papier gescannt oder als Bild generiert wurde.
Für sauberen, gut ausgerichteten gedruckten Text bei 150 dpi oder mehr liegt die Genauigkeit typischerweise zwischen 97 und 99%. Handschrift, ungewöhnliche Schriften, sehr kleiner Text oder Scans niedriger Qualität reduzieren die Genauigkeit signifikant.
Deutsch, Englisch, Französisch, Spanisch, Portugiesisch, Russisch, Chinesisch (vereinfacht und traditionell), Italienisch, Niederländisch, Arabisch und viele andere über die Sprachmodelle von Tesseract.
Nein. Die OCR-Verarbeitung läuft vollständig in Ihrem Browser mit Tesseract.js. Ihre gescannten Dokumente verlassen Ihr Gerät nie.
Nein. Das Erscheinungsbild jeder Seite bleibt identisch. OCR fügt eine unsichtbare Textebene unter dem Bild hinzu, die den Text selektierbar und durchsuchbar macht.
150 dpi ist das akzeptable Minimum. 200–300 dpi wird für Dokumente mit kleinen Schriften oder dichten Tabellen empfohlen. Handyfotos sind ausreichend, wenn das Bild scharf und die Seite gerade ist.
OCR ist für gedruckten Text optimiert. Handschrifterkennung ist deutlich weniger genau und hängt stark von der Lesbarkeit ab.
Ja. PDFKits wendet OCR auf bildbasierte Seiten an und lässt vorhandene Textebenen auf digitalen Seiten intakt.
Ja, obwohl mobiles OCR aufgrund von Verarbeitungsleistungsbeschränkungen deutlich langsamer ist als auf Desktop. Ein 10-seitiger Scan kann auf einem Smartphone 1–2 Minuten dauern.
Unleserlicher Text deutet oft darauf hin, dass die falsche Sprache gewählt wurde, dass die Scan-Auflösung zu niedrig ist oder dass das Dokument ungewöhnliche Schriften hat. Starten Sie erneut mit der richtigen Sprache und einem hochwertigeren Scan.