Les nouvelles pages « Autorités » sur le portail Persée : une avancée grâce au web sémantique

Les nouvelles pages « Autorités » sur le portail Persée : une avancée grâce au web sémantique

Les nouvelles pages « Autorités » sur le portail Persée : une avancée grâce au web sémantique

Persée  travaille constamment à améliorer le service fourni à ses utilisateurs ce qui se traduit par la mise à disposition de nouvelles fonctionnalités :

  • gestion des citations en 2007 ;
  • gestion des outils de bibliographie en 2009 ;
  • alignements des auteurs sur IdRef à partir de 2014 ;
  • ouverture de data.persee.fr en 2017,…

Aujourd’hui, Persée franchit une nouvelle étape en exploitant de façon plus riche la puissance du web sémantique en transformant les pages « auteurs » en pages « autorités », une autorité servant à identifier sans ambiguïté des personnes, des choses ou des concepts.

Nous avons donc développé trois types de pages « autorités » : personnes, taxons et monuments du Caire. Ce billet s’intéresse aux autorités dites « Personnes ». Nous consacrerons ultérieurement des  billets aux autorités « Taxons » et « Monuments ».

Qu’est-ce-qu’une autorité « Personne » ?

Il peut s’agir des auteurs des documents numérisés et diffusés mais aussi des sujets de ces documents comme dans le cadre des nécrologies.

Quelles informations est-ce-que je trouve sur une page autorité « Personne » ?

En pratique, elles s’articulent autour de différents éléments :

  • La définition de l’autorité, regroupant des informations textuelles ou graphiques produites et collectées par Persée ;
  • Les ressources liées à l’autorité dans les collections de Persée :
    • Les documents qui ont comme auteur ou sujet ces autorités ;
    • Les auteurs qui ont écrit à propos de ces autorités ou avec ces autorités ;
    • Les illustrations relatives à ces autorités.
  • Les données qui concernent ces autorités issues de plateformes sélectionnées telles que le sudoc, dbpedia, theses.fr, data.bnf.fr, GBIF ou le Cairo Gazetteer.

Comment j’y accède ?

Elles sont accessibles depuis les notices articles en cliquant sur le nom de la personne dans la référence bibliographique.

Mais que vient faire le web sémantique dans cette histoire ?

Pour construire ces pages, nous devons récupérer des données d’autres bases de données. Ces bases de données sont appelées « référentiels » et nous nous alignons dessus grâce à la création de liens entre nos autorités « Personnes » et les autorités « Personnes » correspondantes dans ces fameux référentiels.

Quels sont les référentiels utilisés ?
  • IdRef : nous alignons les auteurs présents dans les collections Persée avec leur équivalent dans ce référentiel. Grâce à un partenariat fructueux avec les équipes de l’ABES, l’ensemble de nos outils de gestion des auteurs est désormais adossé à IdRef. Cela permet à la fois (1) d’améliorer la qualité des informations de chacun des partenaires, (2) de servir de passerelle vers d’autres référentiels internationaux et (3) de permettre enfin d’accéder à leur production scientifique cataloguée dans le SUDOC mais également dans Calames (catalogue en ligne des archives et des manuscrits de l’enseignement supérieur) et dans theses.fr (catalogue des thèses de doctorats français en cours ou soutenues depuis 1985) ;
  • bnf.fr : nous récupérons la fiche auteur de l’autorité décrite dans cette plateforme ainsi que ses champs disciplinaires ;
  • Dbpedia : nous récupérons la notice de l’autorité de la version structurée et sous forme de données normalisées au format du web sémantique de wikipedia ;
Et la machinerie interne dans tout ça ?

En amont du portail, l’équipe Persée a intégré à ses procédures de documentation, la création et la gestion des liens vers un premier groupe de référentiels (IdRef, GBIF, Cairo Gazetteer). Un important travail de curation des données est mené, en partenariat avec les promoteurs de ces référentiels, afin d’améliorer le taux d’alignement, ainsi que la cohérence et qualité des données de chacun des partenaires.

Ces alignements « primaires » sont complétés par l’exploitation de données et/ou de services mis à disposition par différents sites (data.bnf.fr, viaf, dbpedia, eol, etc.). L’ensemble de ces informations est recoupé et vérifié par des procédures automatisées avant d’être versé sur le portail Persée.

Par exemple, pour Albert jacquard, nous avons stockés les liens suivants : http://ws.persee.fr/authority/persee/29942/id

 

Sur le portail Persée, des services permettent de récupérer l’ensemble des données disponibles auprès des services externes et de les stocker. Elles sont ensuite exploitées pour pré-fabriquer les fragments HTML que la page d’autorité agrège. L’ensemble des données collectées est régulièrement confronté aux données d’origine afin d’être tenu à jour (cycle de deux semaines environ).

Toutes les informations mises à disposition par les services externes sont récupérées sans distinction, le filtrage des éléments les plus pertinents pour nous s’effectuant par la suite.

Nous avons fait le choix de dissocier interrogation des services et affichage des données externes pour ne pas être dépendant de ces services et pouvoir afficher, quelque soit l’état du service externes, des données sur les pages autorités.

L’ensemble de ces procédures de production et de curation est généralisable à d’autres types d’autorités et à d’autres référentiels.

Un billet plus technique sera rédigé dans les prochaines semaines pour vous présenter en détail les technologies et process mis en œuvre pour la création des pages de mashups.

 

Et pour finir, quelques chiffres :

198 660 autorités sont d’ores et déjà proposées réparties de la façon suivante :

 

– 160 747 personnes

– 37275 taxons

– 638 monuments

 

 

 


Les alignements se répartissent ainsi :

 

– 67 352 alignements vers IdRef

– 42 338 alignements vers data.bnf.fr

– 37 275 alignements vers GBIF

– 7 337 alignements vers DBpedia

– 638 alignements vers le Cairo Gazetteer

 

 


D’autres alignements ont été réalisés mais ne sont pour le moment pas exploités.


Hélène Begnis, Chargée des partenariats recherche