La chaîne de production de Persée 2/2

La chaîne de production de Persée 2/2

La chaîne de production de Persée 2/2

Des outils de production et de suivi

Afin de gérer les aspects qualitatifs des images générées et la reconnaissance optique de caractères. : c’est le workflow Persée.

 

Persée a développé un outil de production et de suivi qui sert à toutes les phases de la génération des documents sur le site de diffusion : c’est jGalith dont nous avons déjà parlé dans d’autres billets.

 

Pour ce qui concerne la production, jGalith permet de traiter tous les aspects qualitatifs  en amont et en aval de la numérisation.

 

La préparation matérielle : elle intervient avant la numérisation et permet de décrire les documents en construisant un squelette (fig 1) qui comprend à la fois des informations comme le nombre de pages, de couvertures, de pages délicates mais aussi des données plus documentaires comme l’emplacement des tables des matières, des pages blanches, des pages en couleur etc.. Ce squelette est ensuite utilisé au long de la production et sert de référence à toutes les opérations ultérieures.

 

Fig 1 Exemple de squelette produit avec des couvertures, des pages blanches, couleur, fantômes, doubles, inserts..

 

Les documents, une fois décrits, sont ensuite numérisés et les images vérifiées via DPUScan, l’un des pilotes de scanner.

 

La réception de la numérisation (fig 2) : c’est la première phase qualitative qui suit la numérisation. Le nombre de pages est vérifié automatiquement, selon son type (texte, Couvertures, Fantômes, Couleur…).

 

Fig 2 La phase de réception de la numérisation

 

La validation de la numérisation (fig 3) : c’est la seconde phase qualitative qui a pour but de vérifier si les pages numérisées correspondent bien à celle décrites dans le squelette créé précédemment. Il s’agit pour l’essentiel de s’assurer que les pages sont à leur bonne place et correspondent au type prévu. Les pages peuvent être refusées si la qualité est jugée insuffisante.

 

L’opération nécessite de vérifier un échantillon minimum de 10 pages.

 

Fig 3 La phase de validation de la numérisation

 

 

La gestion des flux : c’est un peu le cœur de la production (avec la numérisation bien entendu).

 

Cette phase est mise en œuvre au sein d’un workflow. Il s’agit de robots logiciels (fig 4) qui s’enchaînent et traitent automatiquement les pages afin de les redresser, de les nettoyer, de marquer les marges autour du texte et des illustrations etc…

 

Fig 4 Un robot logiciel, composant de base du workflow.

 

 

De base, nous utilisons 2 types de robots logiciels :

 

– Génération de la ROC (Reconnaissance optique de caractères : opération qui consiste à extraire les mots / caractères des images numérisées, c’est-à-dire à convertir du texte constitués de points sur une image en des données numériques telles qu’on les trouve sur des traitements de texte) où chaque mot est identifié et localisé sur sa page, puis indexé. C’est via ce système que nous pouvons surligner sur le site où se situent les mots lors du résultat d’une recherche (fig 5).

 

Fig 5 Ici le mot « vaudou » est recherché. Grâce à la localisation des mots lors de la phase de ROC, le mot est surligné lors de cette recherche sur toutes les images le contenant).

 

Le robot redresse automatiquement les pages pour un visuel plus agréable et surtout pour optimiser le résultat de la ROC. Des marges sont également posées automatiquement qui bordent le texte et permettent de supprimer les scories liées à la numérisation sur le bord des pages (fig 6).

 

Fig 6 Exemple de transformation du texte de l’image en un texte numérique (présent dans le cadre Texte à droite) – Pose de marges qui nettoient la page des scories des bords gauche et bas de la page – Et correction de l’angle de la page qui peut être vue en suivant la ligne noire du bord gauche.

 

– Nettoyage et insertion de l’image dans une base, il s’agit de rendre homogène les pages produites, quelles que soient la date de leur édition. Pour faire simple, le principe qui nous guide est l’information scientifique qu’elles contiennent. Une page de 1821 doit apparaître comme une page de 2016 et être utilisable de la même manière sans que, notamment, les traces du temps viennent en perturber la lecture (fig 7).

 

Fig 7 Nettoyage des images / puis insertion dans la base pour l’image qui est diffusée en ligne

 

Le workflow est piloté par un module Superviseur (fig 8) qui collecte les informations de traitement des différents robots opérationnels. Le workflow est massivement parallèle, c’est-à-dire que nous pouvons faire fonctionner autant de robots logiciels que nous en avons besoin – par exemple 5 robots qui vont travailler sur la partie ROC, et 8 robots sur la partie nettoyage et insertion des images. C’est un outil très souple qui nous permet de traiter l’ensemble d’une collection, ou plusieurs simultanément, un nombre défini de documents plus ou moins épars, des plages de pages. La granularité va donc de la collection jusqu’à la page individuelle. Ces traitements peuvent en outre être effectués soit depuis les locaux de Persée, soit depuis tout point disposant d’une connexion internet.

 

Fig 8 Le superviseur du workflow

 

Eric Astier, Responsable production