Warning: include(/var/www/obvil/html/developpements//odt2tei/Odt.php): failed to open stream: No such file or directory in /var/www/obvil/html/developpements/doc/index.php on line 45 Warning: include(): Failed opening '/var/www/obvil/html/developpements//odt2tei/Odt.php' for inclusion (include_path='.:/usr/share/pear:/usr/share/php') in /var/www/obvil/html/developpements/doc/index.php on line 45 stylage word

Styler un texte avec Microsoft.Word§

Ce tutoriel, expose les consignes de reprise d’un texte issu de l’OCR (FineReader) avec le traitement de textes Microsoft.Word. Les copies d’écran viendront généralement de la version 2010 du logiciel. Toutes les opérations sont possibles dans des versions antérieures, cependant les copies d’écran peuvent ne plus correspondre exactement. Ces consignes sont conçues dans le contexte de la chaîne de numérisation de l’OBVIL, en vue de préparer l’export de ce texte en XML-TEI.

NOTE. L’ordre des consignes résulte de l’expérience. On conseillera vigoureusement de suivre chaque étape, dans l’ordre d’exposition.

0. Poste de travail§

Vue générale du bureau

Afficher le volet de navigation§

Affichage > Volet de navigation    

Afficher tous les styles dans la palette des styles§

Afficher la barre : Accueil > Modifier les styles > [flèche en dessous]    
Configurer l’affichage : Styles > Options > Tous les styles, Alphabétique    

Afficher les marques de paragraphes Ԧդ

Les utilisateurs de traitement de textes ont souvent l’habitude de cacher les sauts de paragraphes , voulant à l’écran la page telle qu’elle sera imprimée. Cependant un texte doit désormais envisager plusieurs formats, plusieurs médias, il doit notamment pouvoir s’écouler sans perdre sa structure dans les limites d’écrans de différentes largeurs. Le paragraphe est un élément de structure important, il n’est pas suffisant qu’un texte s’imprime bien sur une certaine taille de papier, il faut surtout que la structure se conserve.

Pour afficher les caractères cachés :

Il est important d’utiliser le paragraphe (‘¶’, Entrée, <p>) comme une unité de signification intrinsèque au texte.    
Il est possible d’inscrire un saut de ligne manuel (↩, Maj+Entrée, <br/>) pour passer à la ligne sans interrompre un paragraphe (et sans passer une ligne si par exemple le style du paragraphe a espacement après) .

Les paragraphes vides posent des problèmes d’interprétation. Il n’est pas possible de décider automatiquement s’ils sont significatifs ou pas. Beaucoup d’éditeurs utilisent le paragraphe vide pour l’espacement vertical, par exemple entre un titre et un paragraphe de texte. On déconseillera cette mauvaise pratique, pour lui préférer la configuration d’un style de titre qui automatise cet espacement. Par contre, il arrive qu’un paragraphe vide ait un véritable sens logique, par exemple comme séparateur entre plusieurs paragraphes de prose liés logiquement.

Styles, utilisation§

Pour appliquer un style de paragraphe, placer le curseur dans le paragraphe à styler, cliquer sur le style souhaité dans la palette des styles (ou le bouton des styles rapides) .

Macros, utilisation§

Pour appliquer une macro :    
Développeur > Macros > [sélectionner la macro par son nom] > Exécuter

1. Raccrocher les notes§

FineReader réussit rarement à raccrocher les notes de bas de page, on conseillera de tout faire pour qu’il n’essaie pas. C’est d’ailleurs impossible lorsque ces notes courent sur plusieurs pages (commencent en bas d’une page pour finir en bas de la suivante) .

Pour raccrocher une note, à chaque point d’appel dans le texte (ex : 1 ou autre chiffre en exposant) , il faut insérer une note de bas de page et copier/coller le texte de la note en bas de la page dans la nouvelle note créée. Inutile de reprendre la numérotation originale de la note, il suffit d’utiliser la numérotation automatique.

(Alt+Ctrl+B) Références > Insérer une note de bas de page

ASTUCES :

  • Si FineReader a identifié une note comme telle (c’est rare…) , un signe d’appel de note apparaît dans le flux du texte, et le contenu de la note est rejeté en toute fin de document (vous pouvez cliquer sur l’appel de note pour accéder à son contenu en bas du document) . Reste donc à copier/coller le contenu de cette note pour l’insérer en tant que note de bas de page au bon endroit.
  • Pensez à utiliser la fonction de recherche pour retrouver le texte de la note dans le document.

2. Raccrocher les paragraphes§

FineReader traite un fichier PDF page à page. Les paragraphes courant sur deux pages sont donc traités comme 2 paragraphes distincts à l’export. Il est donc nécessaire de les « raccrocher » .

L’opération peut être assistée automatiquement avec un programme (une macro) , qui supprime les sauts de paragraphe suivis par une minuscule. Cette logique fonctionne globalement bien pour de la prose classique, mais peut produire du désordre dans certains cas (items de listes, vers qui commencent par une minuscule…) .

Pour installer la macro, contacter un ingénieur. Il faut toujours sauvegarder le document avant d’appliquer une macro afin de pouvoir revenir en arrière en cas de perturbations. La macro OBVIL laisse une trace des sauts de paragraphes supprimés sous la forme d’un espace surligné, ce qui permet de pouvoir retrouver le point de rupture s’il faut dans certains cas rétablir un saut de paragraphe. Ces espaces surlignés pourront être facilement retirés à la fin de l’édition (tout sélectionner, retirer le surlignage) .

ATTENTION :

  • Lancer cette macro APRÈS le raccrochage des notes (sans quoi certaines notes pourraient se retrouver perdues dans le flux du texte) .

3. Styler les niveaux de titre§

Les titres se présentent généralement comme des paragraphes avec une apparence différente du corps du texte. La mise en forme est significative d’un niveau hiérarchique. On aura par exemple des paragraphes centrés, gras, en corps plus gros et précédés d’un saut de page pour introduire les chapitres, tandis que les sections commenceront avec un paragraphe gras, aligné à gauche et en corps normal. Cette mise en forme peut être régularisée automatiquement en utilisant des styles. Un style est essentiellement une étiquette appliquée à un paragraphe. Cette étiquette permet d’appliquer des propriétés de mise en forme, elle permet aussi des fonctionnalités, comme la génération automatique d’une table des matières.

Contenu

 

Ce niveau de stylage est REQUIS pour tous les documents de la chaîne de numérisation de l’OBVIL.

  • NB 1. Rétablir chaque titre sur une seule et même ligne, ou au moins, qu’un titre ne doit pas être interrompu par un saut de paragraphe ¶.
  • NB 2. Les titres doivent être en minuscules droites, avec capitales en début et sur les noms propres, avec titres ou mots étrangers en italique.

Il faut toujours écrire un titre en casse normale. Si l’on veut qu’un titre paraisse en capitales ou en petites capitales, c’est à préciser comme une propriété du style, uniquement au moment de l’impression. En effet, les titres écrits en majuscules utilisent trop rarement les capitales accentuées, et surtout, il est impossible de retrouver des capitales correctes lorsque ce titre a besoin d’être en minuscules (par exemple dans une table des matières) .

LES DECONVENUES D’HONORINE deviendrait : les deconvenues d’honorine

On déconseillera de rappeler le titre du livre au-dessus d’un titre de chapitre. D’une part pour l’imprimé, cette information peut être déjà présente dans le titre courant, d’autre part ce besoin s’interprète très différemment selon les appareils, un site Internet utilisera un fil d’Ariane avec boutons précédent / suivant, tandis qu’une liseuse donne accès au sommaire.

4. Normalisation de la ponctuation§

La macro « Ponctuation » de la bibliothèque OBVIL permet de normaliser automatiquement l’espacement autour de la ponctuation du texte. Pour l’installation de cette macro, contacter un ingénieur.

5. Relecture orthographique§

La reconnaissance des caractères progresse, cependant il reste des erreurs récurrentes, notamment avec des imprimés anciens où certains caractères peuvent être usés. Pour un texte de français “standard”, la correction orthographique (correcteur natif du traitement de textes, ou Antidote) permet de repérer des erreurs, mais attention, il peut rester de nombreuses coquilles d’OCR non détectables de cette manière, c’est-à-dire des mots existant dans un dictionnaire mais qui ont été mal lu. Par exemple, un OCR a lu « sentiment maternel » au lieu de « sentiment matériel » . La succession de jambage pour « rn, ri, m… » est souvent équivoque, le logiciel procède par hypothèses en comparant avec le dictionnaire, avec un risque d’erreurs.