Warning: include(/var/www/obvil/html/developpements//odt2tei/Odt.php): failed to open stream: No such file or directory in /var/www/obvil/html/developpements/doc/index.php on line 45 Warning: include(): Failed opening '/var/www/obvil/html/developpements//odt2tei/Odt.php' for inclusion (include_path='.:/usr/share/pear:/usr/share/php') in /var/www/obvil/html/developpements/doc/index.php on line 45 finereader

Tutoriel FineReader (11.0) ,
des images au texte§

Abbyy FineReader est un logiciel de reconnaissance de caractères (OCR =  Optical Character Recognition) , il extrait automatiquement le texte d’une image. Aussi à partir d’un ensemble de pages numérisées (par exemple assemblées dans un fichier pdf) il permet d’obtenir un texte modifiable dans un traitement de texte (.docx ou .odt) . La reconnaissance automatique demande des réglages préalables, il est conseillé d’effectuer à cette étape toutes les corrections qui nécessite le recours à l’image.

L’interface globale se présente comme un face à face, avec à gauche les images de page, à droite le texte qui a été reconnu. Le texte est reconnu selon une zone définie sur l’image de page. Le texte peut ensuite être corrigé.

Ordre des tâches :

  • Définir les zones de texte à lire
  • Lancer la reconnaissance automatique des caractères (lire)
  • Correction du texte en parallèle avec les images

Attention — Cet ordre des tâches (1. définition des zones ; 2. correction du texte) est essentiel. Redéfinir une zone fait perdre toutes les corrections qui auraient été apportées.

Configurer le logiciel avant utilisation§

Outils > Options > Numériser/ouvrir    
Ne pas lire et ne pas analyser les images de pages acquises automatiquement

La configuration par défaut du logiciel propose de dessiner automatiquement des zones, et de lire les caractères de ces zones. À l’expérience, cette configuration convient à des imprimés très récents (quelques décennies) mais pas pour des livres plus anciens (fontes au plomb, papier jauni) . Il est nécessaire qu’un opérateur supervise les zones avant de procéder à la reconnaissance des caractères, ou sinon le logiciel risque de tracer beaucoup de zones parasites (par exemple sur les tâches du papier, ou les doigts) .

Pour certains types d’imprimés, par exemple avec des polices rares, ou des ligatures, un opérateur expérimenté peut apprendre au logiciel des caractères mal reconnus par défaut (cf. Outils > Options > Lire > Lire avec apprentissage) . La procédure demande un peu d’expérience, elle ne sera pas détaillée ici, mais savoir qu’elle existe permet de faire gagner du temps sur des erreurs récurrentes.

Préparation des images§

Les images peuvent être à l’intérieur d’un dossier (avec nom de fichiers trié dans l’ordre des pages) , ou un fichier pdf. Un fichier pdf a l’avantage d’être plus facile à manipuler qu’un dossier, cependant, la modification d’un fichier pdf pour insérer et réordonner des pages nécessite un logiciel payant (ex : Adobe.Acrobat mais pas Adobe.Reader, Apple.MacOS.Aperçu) . Il est aussi possible de supprimer et ordonner les images de pages dans FineReader, mais cela immobilise le logiciel pour une opération supplémentaire (et il ne faut pas oublier d’exporter le pdf si l’on veut conserver les images du livre dans l’ordre) .

Pour ouvrir un fichier PDF avec FineReader, clic droit dans l’explorateur de fichiers sur le fichier souhaité, ne pas demander de conversion automatique, mais choisir l’option “Ouvrir dans ABBYY FineReader”.

Dans FineReader, commencer par tout de suite enregistrer le document Finereader (Fichier > enregistrer le document Finereader) . Dans l’explorateur de fichiers windows, un “document” FineReader se distingue par une icône, mais il s’agit en réalité d’un dossier de fichiers, à ouvrir par un clic droit. Ce dossier conserver l’état d’avancement du travail de zones et de relectures, il est enregistré automatiquement par FineReader après chaque opération.

FineReader propose un éditeur d’images qui permet quelques opérations à la pièce ou par lot (toutes les pages, toutes les paires ou toutes les impaires) .

On notera la possibilité d’améliorer le contraste et les niveaux pour les images en gris.

L’outil de détourage est assez commode et permet de produire un PDF d’images mieux ajustées, mais attention, cela n’a d’intérêt qu’avec des images issues d’un processus très automatisé, qu’il suffit de mieux calibrer pour améliorer une série d’image. En effet, une image retaillée n’est plus récupérable si par exemple les lettres d’un bord ont été rognées, contrairement à une zone de texte qui peut toujours être redéfinie.

L’outil peut être très pratique pour effacer des taches, mais une image à la fois, par exemple au moment de l’ajustement des zones (inutile d’effacer une tache qui n’est pas dans une zone) .

L’option réaligner toutes les pages apporte généralement beaucoup à la qualité à la reconnaissance, et régularise les zones, l’opération est un peu longue mais entièrement automatique.

Définition des zones§

Une page de livre est rarement une simple colonne de texte. On y trouvera très souvent un titre courant en haut de page, un numéro de page en pied, mais aussi des notes de bas de page, ainsi que parfois différents type de bruits. La définition des zones permet de guider la reconnaissance de caractères sur le texte que l’on souhaite avant tout conserver. Le problème le plus complexe concerne la conservation des numéros de page de l’édition originale, ce qui peut être requis pour certains projets éditoriaux.

Attention, dans la définition d’une zone de texte, FineReader cherche parfois à reconnaître des entêtes même lorsqu’il n’y en a pas, ce qui peut supprimer des titres en haut de page, des notes de bas de page, ou des titres numérotés en bas de page. Il est vraiment indispensable de débrancher ces essais d’interprétation de la zone, en lui attribuant la fonction Corps de texte. Pour conserver les numéros de page dans le flux du texte (avec malheureusement aussi les titres courants qu’il faudra nettoyer ensuite) le cadre de texte inclura le titre courant, sinon, cadrer sans les numéros de page.

Les livres ont généralement un gabarit de page normalisé si bien que l’on pourrait théoriquement définir automatiquement un cadre de texte aux bonne dimensions. En pratique, la numérisation manuelle ne cale pas toujours les pages de la même manière. La procédure suivante demande un peu d’attention mais s’avère plus productive que de tracer une zone pour chaque page.

  • Choisir une page impaire bien pleine
  • Tracer une zone de texte bien ajustée, sans le titre courant et le numéro de page, ou avec s’il on veut conserver les numéros de page (laisser quelque millimètres dans toutes les directions pour s’adapter à toutes les pages)
  • Définir la fonction “Corps de texte”
  • Enregistrer le modèle de zone impaire (Zones > Enregistrer le modèle de zone)
  • Sélectionner toutes les pages impaires (sur une image de page > clic droit > Sélectionner des pages > Impaires)
  • Appliquer le modèle de de page précédemment sauvegardé à toutes les pages impaires (Zones > Charger un modèle de page, surtout cliquer en bas “Pages sélectionnées”)
  • Répéter l’opération pour les pages paires
  • Vérifier chaque page, en déplaçant si nécessaire l’unique cadre “Corps du texte” pour inclure le seul texte désiré.
  • Il peut être très utile de gommer à ce moment là quelques taches prises dans la zone, avec l’éditeur d’image (bouton “Modifier l’image”)

Cette opération de cadrage peut sembler accessoire et fastidieuse, elle conditionne cependant lourdement l’efficacité de la reprise, et notamment la définition de la fonction “Corps de texte”.

Relire (et corriger)§

Une fois les zones correctement définies page à page, et seulement après les avoir toutes définies, on peut demander à FineReader de lire le document entier. Il suffit de cliquer, sous le menu, sur la grosse icône "Lire" pour lancer la lecture de l’ENSEMBLE du document.

Pour relire UNE SEULE page, en cas d’erreur, il faut 

  • soit sélectionner la vignette de la page correspondante, clic droit + "Lire les pages sélectionner"
  • soit, plus précisément encore, sélectionner la zone que l’on souhaite relire, clic droit + "Lire la zone"

La relecture s’occupera principalement des erreurs difficiles à repérer ensuite. L’attention est particulièrement requise sur :

  • Les doutes de la reconnaissance de caractères
  • La correction orthographique
  • Les paragraphes et sauts de ligne
  • Les césures

Doutes de la reconnaissances de caractères — Par défaut, FineReader surligne en bleu clair les lettres qu’il a eu du mal à reconnaître. Ce sont ces doutes qu’un entraînement (lecture avec apprentissage) permet de faire baisser. Pour résoudre ces doutes, le logiciel utilise un dictionnaire. S’il a plusieurs hypothèses de lectures, il choisit celle qui est dans le dictionnaire. Il en résulte parfois des erreurs délicates à retrouver comme par exemple matériel au lieu de maternel. Même avec une lecture attentive, ces erreurs peuvent échapper à l’œil car l’esprit finit par ne voir que le mot logiquement attendu et non celui réellement écrit. Il est bon de pouvoir éviter ces erreurs en amont en contrôlant les doutes de FineReader. Cependant, avec le paramétrage par défaut et sur certains imprimés, le nombre de ces doutes est parfois décourageant si le logiciel n’a pas été spécifiquement entraîné pour ce livre. Il est possible d’exporter ce surlignement bleu vers les formats de traitements de textes, cependant l’interface ne permet pas aussi facilement de comparer avec l’image de la page. A ce stade de la relecture (très superficielle) , il est surtout très important d’éliminer tous les caractères parasites (les petites tâches sur la page que FineReader a cherché à interpréter comme du texte) .

Correction orthographique — Les mots inconnus du dictionnaire (soulignés en rouge) sont généralement d’excellents indicateurs de fautes à corriger, surtout en conjonction avec les doutes de reconnaissance (surlignés bleus) . Si ce repère est utilisé, il est conseillé d’ajouter au dictionnaire les noms propres fréquents et autres mots inconnus.

Paragraphes et sauts de ligne — Au fil de la relecture, vérifier le découpage des paragraphes (hors sauts de page) , notamment le découpage des vers et des strophes. Le logiciel cherche parfois à distinguer les sauts de paragraphe (Entrée ¶) et sauts de ligne à l’intérieur d’un paragraphe (Maj+Entrée ) . Pour espacer des groupes de paragraphes, on conseillera d’utiliser une astérisque, en tous cas un caractère non vide, les traitements de textes ne récupèrent pas les paragraphes vides dans le format HTML.

Césures — Finereader aligne le texte avec les images ligne à ligne. Il repère les césures (cf symbole ¬) . Il est inutile de supprimer ce caractère conditionnel qui n’est pas un saut de ligne. Il faut en revanche le faire pour les cas mal identifiés (tiret à la place du symbole de césure) . Par principe, ne sont raccrochés que les mots connus d’un dictionnaire. Les césures non résolues sont interprétées comme des mots composés, avec un trait d’union : ex. Sula-mite, Dos-toïevsky. Pour éviter que ces erreurs se reproduisent, retirer le trait d’union, et ajouter ce mot au dictionnaire du logiciel (clic droit) .

Surtout ne pas chercher à fusionner les styles, les mises en forme locales comme l’italique seraient perdues.

Export§

FineReader propose une combinatoire importante de formats d’export, plusieurs ont des gros inconvénients pour la reprise de livres.

On alertera notamment contre les modes “Copie exacte”, “Copie modifiable” et “Texte formaté”, dans les format ODT, DOCX, et même HTML (en “texte formaté”) qu peuvent faire perdre du texte lorsque tous les cadres de texte n’ont pas pour fonction “Corps de texte”. Des notes ou des titres numérotés en bas de page peuvent être considérés comme des pieds de pages ou autre zones mal interprétées. Le mode “Copie exacte” simule l’agencement des pages avec des cadres, le texte ne coule plus. Le mode “Texte normal” perd toute mise en forme de niveau caractère, notamment les italiques.

Le format d’export le plus exploitable semble pour l’instant HTML (“Présentation flexible”) , avec l’option “CSS”. Attention, ce format perd les petites capitales. Les paragraphes vides (utilisés parfois comme séparateurs) ne sont pas repris par les traitements de textes s’ils ne contiennent pas au moins un caractère autre qu’un espace (remplir avec par exemple une astérisque permet de conserver ces séparateurs) .

On conseillera d’ouvrir ce fichier “.htm” avec OpenOffice ou LibreOffice (mais pas Microsoft.Word) . En effet, les traitements de textes libres n’interprètent pas les classes CSS, si bien que cette limitation nettoie le fichier de bien des mises en formes parasites que FineReader a cru repérer (ex : grande variété de tailles de polices) .

Ensuite, afin que le document puisse être travaillé dans différents traitements de textes, on conseillera de l’enregistrer en DOCX, le format propriétaire de Microsoft.Word depuis 2007, qui est très bien supporté par les traitements de textes libres. Le format DOC n’est pas conseillé, il n’est plus activement développé en logiciel libre, et quelques bogues désagréables (mais pas bloquants) , ne semblent plus destinés à être corrigés. Microsoft.word peut enregistrer en Open Document Text (ODT) , lu par OpenOffice et LibreOffice, mais Word ne sait pas ouvrir les ODT enregistrés par d’autres logiciels, il ne relit que lui-même. DOCX semble actuellement le meilleur format de communication entre les traitements de textes.

Le seul inconvénient concerne les machines administrées qui ont des versions plus anciennes de Word, et sur lesquelles il est interdit d’installer des logiciels comme LibreOffice 4. En ce cas, il est parfois nécessaire de passer par DOC, par contre, on déconseillera RTF, il arrive aux filtres d’export de produire d’étranges confusions (constaté : toutes les lettres accentuées dans une police différente) .