Un index géant et gratuit des articles de recherche mondiaux publiés en ligne


Carl Malamud

Technologue Carl Malamud.Crédit : Smita Sharma

Dans un projet qui pourrait débloquer les articles de recherche du monde pour une analyse informatisée plus facile, un technologue américain a publié en ligne un index gigantesque des mots et des phrases courtes contenus dans plus de 100 millions d’articles de revues, y compris de nombreux articles payants.

Le catalogue, qui est sorti le 7 octobre et est libre d’utilisation, contient des tableaux de plus de 355 milliards de mots et fragments de phrases répertoriés à côté des articles dans lesquels ils apparaissent. C’est un effort pour aider les scientifiques à utiliser des logiciels pour glaner des informations à partir de travaux publiés, même s’ils n’ont aucun accès légal aux documents sous-jacents, explique son créateur, Carl Malamud. Il a publié les dossiers sous les auspices de Public Resource, une société à but non lucratif à Sebastopol, en Californie, qu’il a fondée.

Malamud dit que parce que son index ne contient pas le texte intégral des articles, mais seulement des extraits de phrases de cinq mots maximum, sa publication ne viole pas les restrictions de droits d’auteur des éditeurs sur la réutilisation des articles payants. Cependant, un expert juridique affirme que les éditeurs pourraient remettre en question la légalité de la façon dont Malamud a créé l’index en premier lieu.

Certains chercheurs qui ont eu un accès précoce à l’index disent qu’il s’agit d’un développement majeur pour les aider à rechercher la littérature avec un logiciel – une procédure connue sous le nom de text mining. Gitanjali Yadav, biologiste informatique à l’Université de Cambridge, au Royaume-Uni, qui étudie les composés organiques volatils émis par les plantes, dit qu’elle vise à passer au peigne fin l’indice de Malamud pour produire des analyses des produits chimiques végétaux décrits dans les documents de recherche du monde. « Il n’y a aucun moyen pour moi – ou pour quiconque d’autre – d’analyser ou de mesurer expérimentalement l’empreinte chimique de chaque espèce végétale sur Terre. Une grande partie des informations que nous recherchons existent déjà, dans la littérature publiée », dit-elle. Mais les chercheurs sont limités par le manque d’accès à de nombreux documents, ajoute Yadav.

L’« indice général » de Malamud, comme il l’appelle, vise à résoudre les problèmes rencontrés par des chercheurs tels que Yadav. Les informaticiens envoient déjà des articles sur les mines par SMS pour créer des bases de données de gènes, de médicaments et de produits chimiques trouvés dans la littérature, et pour explorer le contenu des articles plus rapidement qu’un humain ne pourrait le lire. Mais ils notent souvent que les éditeurs contrôlent en fin de compte la vitesse et la portée de leur travail, et que les scientifiques sont limités à extraire uniquement les articles en libre accès, ou les articles auxquels ils (ou leurs institutions) sont abonnés. Certains éditeurs ont déclaré que les chercheurs cherchant à extraire le texte d’articles payants ont besoin de leur autorisation.

Et bien que les moteurs de recherche gratuits tels que Google Scholar aient indexé, avec l’accord des éditeurs, le texte de la littérature payante, ils ne permettent aux utilisateurs de rechercher qu’avec certains types de requêtes textuelles et restreignent la recherche automatisée. Cela ne permet pas une analyse informatisée à grande échelle utilisant des recherches plus spécialisées, dit Malamud.

Téraoctets de données

Le projet de Malamud est sa dernière entreprise dans une carrière consacrée à la publication d’informations verrouillées pour un accès gratuit en ligne – souvent face à des défis juridiques. Il s’est d’abord concentré sur la publication d’informations juridiques et financières produites par le gouvernement. Mais plus récemment, il a tourné son attention vers l’ouverture de la littérature scientifique.

Il a commencé avec un projet visant à permettre aux scientifiques d’exploiter par SMS – mais pas de lire – un magasin géant de documents de recherche qu’il détient sur un serveur en Inde ; une idée sur laquelle il dit qu’il travaille toujours. L’Index général permet désormais à n’importe qui d’exploiter des travaux scientifiques, mais il n’a pas son propre portail de recherche sur le Web, donc si les scientifiques veulent le rechercher, ils devront télécharger ses fichiers et développer leurs propres programmes. Malamud espère que les utilisateurs mettront tous les moteurs de recherche qu’ils créent à la disposition des autres.

Dans son format compressé, le catalogue totalise près de 5 téraoctets, puis s’étend à 38 téraoctets. En plus des fragments de phrases, les fichiers comprennent également des tableaux de près de 20 milliards de mots-clés dans la littérature, et des tableaux du titre, des auteurs et du DOI (identifiant de l’article) d’un article, afin que les utilisateurs puissent retrouver un article complet s’ils ont accès à la lecture ce.

Michael Carroll, chercheur juridique à l’American University Washington College of Law, affirme que la distribution de l’index devrait être légale dans le monde entier, car les fichiers ne copient pas suffisamment un article sous-jacent pour enfreindre le droit d’auteur de l’éditeur – bien que les lois varient selon les pays. « Le droit d’auteur ne protège pas les faits et les idées, et ces résultats seraient traités comme une communication de faits dérivés de l’analyse des articles protégés par le droit d’auteur », dit-il.

La seule question juridique, ajoute Carroll, est de savoir si Malamud a obtenu et copié les documents sous-jacents sans enfreindre les conditions des éditeurs. Malamud dit qu’il a dû obtenir des copies des 107 millions d’articles référencés dans l’index pour le créer ; il a refusé de dire comment, mais souligne que les chercheurs n’auront pas accès aux textes complets des articles, qui sont stockés dans un endroit sécurisé et non divulgué aux États-Unis.

«Je suis très confiant que ce que je fais est légal. Nous ne faisons pas cela pour provoquer un procès, nous le faisons pour faire avancer la science », dit-il.

La nature contacté six éditeurs au sujet de l’Index général pour cet article : tous sauf un ont refusé de commenter. Dans un communiqué, Springer Nature a déclaré que la société soutenait des initiatives de recherche ouverte qui utilisent la technologie et des algorithmes pour répondre aux besoins des chercheurs. « Nous avons vu certaines initiatives rencontrer des problèmes, cependant, lorsque les droits nécessaires n’ont pas été obtenus pour permettre leur durabilité », ajoute le communiqué. (Springer Nature publie ce journal ; La natureL’équipe d’actualités de est indépendante sur le plan éditorial de son éditeur.)

Un autre chercheur juridique, Arul George Scaria de la National Law University de Delhi, déclare que tout éditeur qui essaierait d’utiliser les lois sur le droit d’auteur pour empêcher les chercheurs d’utiliser l’Index général « finirait par être déçu ». La publication de l’index, dit Scaria, est un « développement majeur pour la richesse des informations qu’il a débloquées à partir de ces 107 millions d’articles de revues ».

Laisser un commentaire