Une base de données taxonomique est une base de données contenant des informations sur les taxons biologiques. Elle est généralement organisée de façon à pouvoir associer de manière efficace les noms d'espèces ou autre identifiant taxonomique à leurs taxons pour la gestion des données et la récupération des informations. Ces bases de données sont essentielles pour l'identification de nouvelles espèces ou de nouveaux taxons. Les bases de données taxonomiques sont souvent utilisées pour la construction automatisée de listes de contrôle biologiques telles que les flores et les faunes, que ce soit pour la publication imprimée ou en ligne ; soutenir le fonctionnement des systèmes d'information sur les espèces en ligne ; dans le cadre de la gestion des collections biologiques (par exemple dans les musées et les herbiers ) ; ainsi que de fournir, dans certains cas, la composante de gestion des taxons de systèmes d'information scientifiques ou biologiques plus larges. Elles sont également une contribution fondamentale à la discipline de l'informatique de la biodiversité.
Objet
L'objectif d'une base de données taxonomique est (ou devrait être) de modéliser avec précision les caractéristiques d'intérêt des organismes présentés. Ces caractéristiques doivent être pertinentes pour les organismes qui sont dans le champ d'application de la couverture et de l'utilisation prévues du système.
Dans tous ces cas, la modélisation de la hiérarchie taxonomique pertinente pour n'importe quel taxon correspond naturellement au modèle relationnel utilisé dans presque tous les systèmes de bases de données. En général, ces bases de données contiennent au minimum le codage des identifiants des organismes (le plus souvent une combinaison du nom scientifique, de l'auteur et - pour les taxons zoologiques - de l'année de publication originale). En fonction de leurs spécialisations, les bases de données taxonomiques peuvent fréquemment incorporer des informations taxonomiques supplémentaires telles que des synonymes (historique des dénominations) et des opinions taxonomiques, des classifications, des sources bibliographiques ou des citations, plus une gamme d'attributs biologiques souhaités pour chaque taxon, tels que la répartition géographique, l'écologie, les informations descriptives, le statut menacé ou vulnérable, des informations génétiques, etc.
Historique
La première gestion documentée des informations taxonomiques sous forme informatisée est peut-être celle du système de codage taxonomique développé par Richard Swartz ''et al.'' au Virginia Institute of Marine Science(en) pour le biote de la baie de Chesapeake et décrit dans un rapport publié en 1972[3].
Ce travail a conduit directement ou indirectement à d'autres projets de plus grande envergure, notamment le système de code taxonomique du NODC[4] qui a connu 8 versions avant d'être interrompu en 1996, pour être subsumé dans le système d'information taxonomique intégré (ITIS) toujours actuel.
Aux États-Unis, le NCBI a mis en ligne dès 1991 la base de données NCBI Taxonomy[5]. Il s'agissait alors de la première base de données liant les séquences nucléotidiques et protéiques souvent d'origines disparates aux différents systèmes de classification taxonomiques[5].
Un certain nombre d'autres bases de données taxonomiques spécialisées dans des groupes particuliers d'organismes apparus depuis les années 1970 à aujourd'hui contribuent conjointement au projet Species 2000. Ce projet Species 2000 avait commencé comme un programme conjoint entre le CODATA (International Council for Science: Committee on Data for Science and Technology), IUBS (International Union of Biological Sciences) et l'IUMS (International Union of Microbiological Societies) au début des années 1990[6]. En 1996, dix-huit organisations de bases de données taxonomiques se sont entendues pour convertir le projet Species 2000 en une entité légale. Depuis 2001, elle s'est associée à ITIS pour produire un produit combiné, le Catalogue of Life.
Alors que le Catalogue of Life se concentre actuellement sur l'assemblage d'informations de base sur les noms en tant que liste de contrôle globale des espèces, de nombreux autres projets de bases de données taxonomiques tels que Fauna Europaea, l'Australian Faunal Directory[7], et d'autres fournissent de riches informations auxiliaires, notamment des descriptions, des illustrations, des cartes et Suite.
Plus de 600 projets de bases de données taxonomiques sont actuellement répertoriés sur le site TDWG "Biodiversity Information Projects of the World"[8].
Problèmes
La représentation d'informations taxonomiques sous une forme encodable en informatique soulève un certain nombre de problèmes non rencontrés dans d'autres domaines, tels que des variantes pour citer la même espèce ou un autre nom de taxon, le même nom utilisé pour plusieurs taxons (homonymes), plusieurs noms pour le même taxon (synonymes), changements dans la définition du nom et du concept de taxon au fil du temps, et plus encore. Un forum qui a promu la discussion et les solutions possibles à ces problèmes et aux problèmes connexes depuis 1985 est le Biodiversity Information Standards (TDWG) dont les initiales correspondent à son nom d'origine, le « Taxonomic Database Working Group » (groupe de travail sur les bases de données taxonomiques en français).
↑Swartz, RC., Wass ML., Boesch DF., A taxonomic code for the biota of the Chesapeake Bay. Special scientific report no. 62 of the Virginia Institute of Marine Science, Gloucester Point, Va, Virginia Institute of Marine Science, , 117 p. (lire en ligne)