Persée numérise des publications scientifiques pour les diffuser sur son portail www.persee.fr.
Afin que vous puissiez trouver un document facilement, et naviguer dans une collection par numéro, par ouvrage ou encore par année, Persée a conçu et utilise un outil dédié de traitement : jGalith. Il permet de gérer les différentes étapes de numérisation, de documentation, de diffusion et d’archivage pérenne. Il s’appuie sur un ensemble de modèles de données (TEI, METS, DC, MODS, MADS, marcXMl). Ce billet vous propose un parallèle back office / front office afin de montrer comment les 700 000 documents actuellement en ligne sur le portail ont été décrits, structurés et enrichis.
La documentation s’effectue en 5 étapes successives :
- La prédocumentation : récupération via un OCR (logiciel de reconnaissance optique de caractères) de la table des matières du fascicule.
- La documentation initiale : vérification et enrichissement des données ainsi récupérées (titres des unités documentaires, nom et responsabilité des auteurs, liaison de ceux-ci à la base de données interne, elle-même liée à celle de l’ABES -IdReF-, précision de la langue, pagination, typologie des documents – article, compte-rendu, etc.).
Ces deux étapes permettent de produire des tables des matières a minima identiques à celles imprimées, le plus souvent enrichies (rubriques et compte-rendus détaillés), telles que vous pouvez les consulter sur le portail au niveau du fascicule :
- La documentation infrapaginaire : indexation des éléments structurant en interne chaque document précédemment identifié (titres de niveaux, annexes, illustrations). On passe sur chaque page numérisée en localisant les données structurantes, en typant et en contrôlant/corrigeant le texte issu de l’OCR.
Pour les illustrations, la même démarche est effectuée, avec précision de la légende et des éventuels ayants droit spécifiques :
C’est suite à cette étape que peuvent vous être proposés les outils de navigation disponibles dans les onglets Plan et Figures.
Des enrichissements peuvent être apportés ultérieurement : résumés présents sous format texte, liens entre documents présents sur le portail (articles qui citent ou qui sont cités par le document consulté) et vers des référentiels extérieurs.
- La validation documentaire : vérification en interne des données produites via l’interface jGalith.
- La validation éditoriale : vérification par les responsables des publications via l’interface jGalith, mais avec un accès unique permettant de donner leur accord pour diffusion.