Le XML, langage de balisage extensible, est un format universel pour les documents et les données structurés sur le Web. Il est conçu de manière à identifier les ressources de manière plus flexible et plus adaptable, ce qui améliore la fonctionnalité du Web. Ce langage est qualifié dextensible car, contrairement au HTML, il ne sagit pas dun langage de balisage simple et prédéfini. Le XML est en réalité un méta-langage, cest-à-dire un langage décrivant dautres langages. Chacun peut ainsi concevoir ses propres langages de balisage pour un nombre illimité de types de documents. Toutes ces caractéristiques en font une norme intéressante pour léchange de données.
Un document XML est constitué dun ensemble de données. À bien des égards, il nest pas différent dautres fichiers. En tant que format de "base de données", le XML présente des avantages: il se décrit lui-même (le balisage décrit la structure et les noms du type de donnée, mais pas la sémantique); il est portable (Unicode) et peut présenter les données sous forme darborescences ou de graphiques.
À lexception des entités non parsées, toute donnée dun document XML PA AGRIS est un texte PC DATA (pour les éléments) ou CDATA (pour les attributs), même sil sagit dun autre type de donnée, comme une date ou un entier. Le logiciel de transfert de données convertira généralement les données de texte (dans le document XML) en dautres types de données (dans la base de données), et vice-versa.
Le XML est un méta-langage de balisage de contenu conçu pour stocker et afficher des documents sur le Web. En séparant le contenu de la présentation, le XML permet de générer des informations quil est plus facile à intégrer à dautres ressources du Web.
Lobjectif dune DTD, ou définition de type de document, est de définir les constituants autorisés dun document XML. La DTD définit la structure dun document à laide dune liste déléments autorisés. Ses avantages sont nombreux: chaque fichier XML peut contenir une description de son propre format; des groupes indépendants dutilisateurs peuvent convenir dutiliser une DTD commune pour échanger les données; les utilisateurs peuvent se servir dune DTD normalisée pour vérifier la validité des données reçues de lextérieur ou leurs propres données.
Il est indispensable que la structure des documents XML produits soit identique à celle prévue par la DTD. Pour cela, létape la plus importante est de convertir le schéma de la base de données locale en un schéma DTD XML.
La communauté W3C XML définit un mécanisme appelé espace de nom XML. Ce mécanisme peut être utilisé comme un document XML unique contenant des éléments et des attributs définis et utilisés par de multiples composantes logicielles. Cette utilisation par de multiples logiciels favorise la réutilisation et limite la réinvention. La définition donnée par la communauté W3C XML est la suivante:
Un espace de nom XML est une collection de noms, identifiée par une référence URI, qui sont utilisés dans les documents XML en tant que types déléments et noms dattributs. Les espaces de nom XML diffèrent des "espaces de nom" conventionnels dans les disciplines informatiques dans la mesure où la version XML a une structure interne et nest pas, mathématiquement parlant, une série.
Dans ce contexte, tous les nouveaux éléments définis dans la Série déléments de métadonnées agricoles (AgMES)[3] constituent un espace de nom. AgMES définit les éléments nécessaires à la description précise de divers types de documents ayant trait à lagriculture. Cette série déléments est maintenue à un emplacement stable et constitue un point de référence où les éléments sont définis et maintenus pour être utilisés par différentes applications.
La plupart des données bibliographiques sont aujourdhui enregistrées dans des bases de données relationnelles, tels Oracle et SQL Server 2000, ainsi que dans dautres systèmes capables dexploiter le format XML par diverses approches. Ces produits permettent de publier, de gérer et de partager facilement des contenus sur des réseaux intranet dentreprises et sur le Web. Lune de leurs principales caractéristiques à cet égard est leur bidirection, cest à dire quils peuvent servir à transférer des données aussi bien à partir de documents XML vers la base de données que depuis la base de données vers des documents XML.
Le présent document sintéresse plus particulièrement aux bases de données configurées pour le format XML, cest-à-dire aux systèmes permettant dexporter des données au format XML. La plupart des services de solution intégrée de gestion linguistique (ILMS) proposent aujourdhui un certain degré de fonctionnalité XLM dans leurs produits. Il est toutefois important de noter quun processus plus axé sur le multitraitement permet dextraire, de convertir et de produire le XML à partir de presque nimporte quel type de SGBD, à condition quune couche supplémentaire soit élaborée après lextraction du sous-ensemble de données concerné.
[3] http://www.fao.org/agris/agmes |