Un PDF scanné ressemble à un document normal, mais on ne peut pas y faire de recherche. Le texte est stocké comme une image plate — des pixels disposés pour ressembler à des lettres, pas de vrais caractères. Impossible de sélectionner un mot, copier une phrase ou utiliser Ctrl+F pour trouver une section. La reconnaissance optique de caractères (OCR) lit ces pixels et les convertit en vrai texte, rendant le document recherchable, accessible et copiable.
C'est essentiel pour les avocats relisant 500 pages de pièces, les équipes RH indexant des dossiers de salariés, les chercheurs travaillant avec des archives numérisées, et quiconque a essayé de trouver un montant dans un relevé bancaire scanné. PDFKits OCR PDF traite vos documents scannés dans votre navigateur, ajoutant une couche de texte invisible sur l'image sans altérer l'apparence visuelle d'aucune page.
Glissez le PDF scanné dans la zone de chargement. L'outil détecte si le fichier est basé sur des images ou s'il a déjà une couche de texte (auquel cas il vous prévient que l'OCR n'est pas nécessaire). Pour de meilleurs résultats, les scans doivent être à 150 dpi ou plus et raisonnablement droits — une page photographiée à 30 degrés produit des résultats de reconnaissance médiocres.
La précision OCR dépend du modèle linguistique. Sélectionnez la langue principale du document — français, anglais, espagnol, allemand, portugais, russe, chinois, entre autres. Pour les documents multilingues (fréquents en zones frontalières ou contrats internationaux), choisissez la langue dominante. Lancer l'OCR dans la mauvaise langue produit du texte illisible où les caractères se confondent avec des lettres visuellement proches d'un autre alphabet.
Cliquez sur Lancer l'OCR. L'outil analyse chaque page, identifie les zones de texte et construit une couche de texte recherchable. La précision pour du texte imprimé propre et bien aligné tourne autour de 97–99%. Les notes manuscrites, polices inhabituelles, texte très petit ou scans à faible contraste réduisent la précision. Le PDF résultant est visuellement identique à l'original mais possède désormais du texte sélectionnable — ouvrez-le et appuyez sur Ctrl+F pour vérifier que la recherche fonctionne. Traiter un scan de 30 pages à résolution standard prend 20 à 60 secondes selon votre appareil.
Une assistante juridique d'un cabinet parisien reçoit une déposition de 600 pages en PDF scanné de la partie adverse. Lancer l'OCR sur PDFKits le convertit en document recherchable — elle trouve chaque référence à une date clé avec Ctrl+F, une tâche qui nécessiterait sinon de lire chaque page manuellement.
Un historien numérisant des dossiers administratifs des années 40 photographie 200 pages dactylographiées et les convertit en PDFs. L'OCR transforme les pages-image en documents recherchables — noms, dates et lieux deviennent indexés comme texte intégral, rendant viable la recherche croisée entre documents.
Une clinique numérise les fiches d'admission de patients des dix dernières années. L'OCR rend recherchables les noms de patients, dates de naissance et codes de diagnostic dans l'archive numérique, réduisant drastiquement le temps pour retrouver un dossier spécifique.
Un cabinet d'expertise-comptable scanne 10 ans de factures papier dans le cadre d'un contrôle fiscal. L'OCR sur chaque lot rend recherchables noms de fournisseurs, numéros de facture et montants — les auditeurs localisent toute transaction en secondes au lieu de feuilleter scan par scan.
Une étudiante en littérature comparée télécharge des livres numérisés en PDFs-image depuis le fonds bibliographique de son université. Lancer l'OCR les rend recherchables, permettant de localiser toutes les occurrences d'un terme spécifique dans trois volumes de 400 pages simultanément.
L'OCR a traditionnellement requis du logiciel desktop — ABBYY FineReader coûte 199 USD en licence perpétuelle, Adobe Acrobat Pro 29,99 USD/mois, et la plupart des services OCR en ligne uploadent vos documents sur leurs serveurs pour le traitement. PDFKits exécute l'OCR directement dans votre navigateur avec Tesseract.js, le port navigateur du moteur Tesseract standard de l'industrie.
| Caractéristique | PDFKits | Adobe Acrobat Pro | ABBYY FineReader | iLovePDF OCR |
|---|---|---|---|---|
| Prix | Gratuit, toujours | 29,99 USD/mois | 199 USD perpétuel | 2 tâches/jour gratuit |
| Fichiers restent sur votre appareil | Oui | Non — cloud | Oui | Non — cloud |
| Support multilingue | Oui | Oui | Oui | Limité |
| Sans installation | Oui | Non | Non | Oui |
| Limite quotidienne | Aucune | Aucune | Aucune | 2/jour |
Pour les documents confidentiels — dossiers médicaux, correspondance juridique, relevés financiers — l'OCR navigateur est l'unique approche garantissant que le contenu du document n'arrive jamais sur un serveur externe. Important sous RGPD européen, où le traitement de données personnelles par un tiers exige justification légale et un accord de sous-traitance.
L'OCR (reconnaissance optique de caractères) convertit les PDF basés sur images en documents recherchables. Vous en avez besoin quand vous ne pouvez ni sélectionner ni rechercher du texte dans un PDF — typiquement parce qu'il a été scanné depuis du papier ou généré comme image.
Pour du texte imprimé propre et bien aligné à 150 dpi ou plus, la précision tourne typiquement entre 97 et 99%. L'écriture manuscrite, polices inhabituelles, texte très petit ou scans basse qualité réduisent significativement la précision.
Français, anglais, espagnol, allemand, portugais, russe, chinois (simplifié et traditionnel), italien, néerlandais, arabe, et beaucoup d'autres via les modèles linguistiques de Tesseract.
Non. Le traitement OCR s'exécute entièrement dans votre navigateur avec Tesseract.js. Vos documents scannés ne quittent jamais votre appareil.
Non. L'apparence de chaque page reste identique. L'OCR ajoute une couche de texte invisible sous l'image qui rend le texte sélectionnable et recherchable.
150 dpi est le minimum acceptable. 200–300 dpi est recommandé pour les documents avec petites polices ou tableaux denses. Les photos de mobile sont suffisantes si l'image est nette et la page droite.
L'OCR est optimisé pour le texte imprimé. La reconnaissance d'écriture manuscrite est nettement moins précise et dépend beaucoup de la lisibilité.
Oui. PDFKits applique l'OCR aux pages basées sur images et laisse intactes les couches de texte existantes sur les pages numériques.
Oui, bien que l'OCR mobile soit nettement plus lent que sur desktop à cause des limites de puissance de traitement. Un scan de 10 pages peut prendre 1–2 minutes sur smartphone.
Du texte illisible indique souvent qu'on a choisi la mauvaise langue, que la résolution du scan est trop basse, ou que le document a des polices inhabituelles. Relancez avec la bonne langue et un scan de meilleure qualité.