Visualiser et comparer les états de collection de Persée

Visualiser et comparer les états de collection de Persée

Visualiser et comparer les états de collection de Persée

Aujourd’hui, Persée diffuse plus de 500 titres de revues et travaille avec près de 190 éditeurs. Autant de raisons d’être attentif à la place de l’offre de Persée dans le paysage de l’édition scientifique. Dans ce billet, nous avons voulu illustrer à travers 3 visualisations (rosace, histogramme et vue synoptique) nos efforts pour situer les collections de Persée par rapport aux collections des bibliothèques universitaires et de recherche dans le Sudoc, le catalogue collectif français de l’enseignement supérieur et de la recherche.

Sélection des titres à analyser

Pour les besoins de l’analyse, les revues ont été regroupées suivant le nombre de consultations enregistrées en 2021 (statistiques Counter). À noter : dans Persée, les différents titres successifs qu’une revue a pu prendre au fil du temps sont rassemblés sous un titre unique, qui représente pour nous une « collection » : c’est sur la base de cette collection que les statistiques Counter sont produites. Chacun des titres successifs se voit ainsi attribuer par élargissement l’ensemble des consultations de la revue.

Nous obtenons ainsi 5 groupes correspondant aux quatre intervalles entre quartiles, plus un groupe de valeurs supérieures jugées atypiques, car excédant très classiquement 1,5 fois l’écart interquartile au-dessus du 3e quartile : 

premier intervalle, entre 3500 et 65 000 consultations
deuxième intervalle, entre 65000 et 160000 consultations
troisième intervalle, entre 160000 et 374000 consultations
quatrième intervalle, entre 374000 et 837000 consultations
« intervalle » des valeurs supérieurs atypiques, entre 837000 et 1600000 consultations.

D’autre part, les visualisations suivantes ont été produites sur une sélection d’environ 430 titres pleinement exploitables. Par exemple, seuls les titres mis en ligne avant 2021 et disposant donc de 12 mois de statistiques de consultation Counter pour 2021 font partie du périmètre de l’étude. Nous avons choisi d’écarter les titres mis en ligne courant 2021, qui n’ont pas bénéficié de 12 mois complets d’exposition dans Persée. Autre exemple : comme les données Persée et les données Sudoc sont appariées sur la base des identifiants ISSN et PPN, nous avons sorti de l’étude les titres sans identifiant ou sans identifiant sûr.

Explication des figures

Sur les histogrammes, chaque barre correspond à un titre, chaque groupe (du bleu clair au gris) correspond à un intervalle entre quartiles. Plus les barres sont courtes, moins il y a de localisation dans le Sudoc. Plus les barres sont longues, plus il y a de localisations dans le Sudoc.

Sur la figure 1 (rosace), on constate que les barres gagnent en hauteur à chaque intervalle, on observe une corrélation entre nombre de localisations dans le Sudoc et nombre de consultations sur Persée.

La vue détaillée, sur la figure 2 (histogramme), est notamment intéressante pour l’étude des extrêmes. Elle permet de facilement repérer les titres qui ont peu ou très peu de localisations dans le Sudoc mais qui ont une audience forte sur le portail Persée. Inversement, elle permet de repérer les titres qui sont peu consultés sur Persée tout en étant très présents en bibliothèque. La version dynamique html affiche le nombre exact de localisations.

La figure 3 (vue synoptique) propose une visualisation des états de collection pour un seul titre, ici Economie rurale, à la manière de Périscope. Elle fait notamment ressortir les états de collection dans les Plans de Conservation Partagée des Périodiques (PCPP). Dans sa version complète, elle présente aussi la liste des états de collection hors PCPP et la liste les états de collection non exploitables.

 

Figure 1.

Etats de collections dans le Sudoc d’une sélection de titres de Persée, répartis par intervalle de consultation Counter 2021. 

 

 

 

 

 

Figure 2.

Etats de collections dans le Sudoc d’une sélection de titres de Persée, répartis par intervalle de consultation Counter 2021.

 

 

 

 

Figure 3.

Etats de collections synoptiques dans Persée et dans le Sudoc, exemple de la revue Economie rurale (issn 0013-0559)

Des visualisations… et après ?

Produire de telles visualisations aide à appréhender, explorer et analyser les données. Cela exige en revanche de préparer méticuleusement les données et peut demander de faire des choix discutés.
Nous comptons poursuivre et étendre ce travail de visualisation (sous l’angle des disciplines, par exemple) et prochainement rendre publics les notebooks python qui permettent de générer ces figures à partir d’un fichier KBART.

Ces visualisations ont été produites grâce à un travail mené par Amélie Descollonges et Julien Colin dans le cadre du master Humanités Numériques de Lyon (ENS de Lyon, Université Lumière Lyon 2, Université Jean Moulin Lyon 3, Enssib), en collaboration avec Julie Mistral et Morgane Parra de l’Abes, et Sitthida Samath, Chargée de mission qualité et interopérabilité des données à Persée, durant l’année 2021-2022.

Pour aller plus loin :

  • L’article « Un outil de comparaison visuelle des collections numérisées de Persée et de leurs équivalents imprimés » dans Arabesques n° 105.
  • La présentation de Sitthida Samath lors des Journées Abes 2022 et sur Vimeo (à 2:27).
  • Les fichiers des figures présentées dans ce billet, ainsi que les données sources correspondantes, sont disponibles sur Zenodo.