Page précédente Table des matières Page suivante


2. Quelques définitions


2.1 XML

Le XML, langage de balisage extensible, est un format universel pour les documents et les données structurés sur le Web. Il est conçu de manière à identifier les ressources de manière plus flexible et plus adaptable, ce qui améliore la fonctionnalité du Web. Ce langage est qualifié d’extensible car, contrairement au HTML, il ne s’agit pas d’un langage de balisage simple et prédéfini. Le XML est en réalité un ‘méta-langage’, c’est-à-dire un langage décrivant d’autres langages. Chacun peut ainsi concevoir ses propres langages de balisage pour un nombre illimité de types de documents. Toutes ces caractéristiques en font une norme intéressante pour l’échange de données.

Un document XML est constitué d’un ensemble de données. À bien des égards, il n’est pas différent d’autres fichiers. En tant que format de "base de données", le XML présente des avantages: il se décrit lui-même (le balisage décrit la structure et les noms du type de donnée, mais pas la sémantique); il est portable (Unicode) et peut présenter les données sous forme d’arborescences ou de graphiques.

À l’exception des entités non parsées, toute donnée d’un document XML PA AGRIS est un texte PC DATA (pour les éléments) ou CDATA (pour les attributs), même s’il s’agit d’un autre type de donnée, comme une date ou un entier. Le logiciel de transfert de données convertira généralement les données de texte (dans le document XML) en d’autres types de données (dans la base de données), et vice-versa.

Le XML est un méta-langage de balisage de contenu conçu pour stocker et afficher des documents sur le Web. En séparant le contenu de la présentation, le XML permet de générer des informations qu’il est plus facile à intégrer à d’autres ressources du Web.

2.2 Définition de type de document (DTD)

L’objectif d’une DTD, ou définition de type de document, est de définir les constituants autorisés d’un document XML. La DTD définit la structure d’un document à l’aide d’une liste d’éléments autorisés. Ses avantages sont nombreux: chaque fichier XML peut contenir une description de son propre format; des groupes indépendants d’utilisateurs peuvent convenir d’utiliser une DTD commune pour échanger les données; les utilisateurs peuvent se servir d’une DTD normalisée pour vérifier la validité des données reçues de l’extérieur ou leurs propres données.

Il est indispensable que la structure des documents XML produits soit identique à celle prévue par la DTD. Pour cela, l’étape la plus importante est de convertir le schéma de la base de données locale en un schéma DTD XML.

2.3 Espaces de nom

La communauté W3C XML définit un mécanisme appelé espace de nom XML. Ce mécanisme peut être utilisé comme un document XML unique contenant des éléments et des attributs définis et utilisés par de multiples composantes logicielles. Cette utilisation par de multiples logiciels favorise la réutilisation et limite la réinvention. La définition donnée par la communauté W3C XML est la suivante:

Un espace de nom XML est une collection de noms, identifiée par une référence URI, qui sont utilisés dans les documents XML en tant que types d’éléments et noms d’attributs. Les espaces de nom XML diffèrent des "espaces de nom" conventionnels dans les disciplines informatiques dans la mesure où la version XML a une structure interne et n’est pas, mathématiquement parlant, une série.

Dans ce contexte, tous les nouveaux éléments définis dans la Série d’éléments de métadonnées agricoles (AgMES)[3] constituent un espace de nom. AgMES définit les éléments nécessaires à la description précise de divers types de documents ayant trait à l’agriculture. Cette série d’éléments est maintenue à un emplacement stable et constitue un point de référence où les éléments sont définis et maintenus pour être utilisés par différentes applications.

2.4 XML et bases de données

La plupart des données bibliographiques sont aujourd’hui enregistrées dans des bases de données relationnelles, tels Oracle et SQL Server 2000, ainsi que dans d’autres systèmes capables d’exploiter le format XML par diverses approches. Ces produits permettent de publier, de gérer et de partager facilement des contenus sur des réseaux intranet d’entreprises et sur le Web. L’une de leurs principales caractéristiques à cet égard est leur bidirection, c’est à dire qu’ils peuvent servir à transférer des données aussi bien à partir de documents XML vers la base de données que depuis la base de données vers des documents XML.

Le présent document s’intéresse plus particulièrement aux bases de données configurées pour le format XML, c’est-à-dire aux systèmes permettant d’exporter des données au format XML. La plupart des services de solution intégrée de gestion linguistique (ILMS) proposent aujourd’hui un certain degré de fonctionnalité XLM dans leurs produits. Il est toutefois important de noter qu’un processus plus axé sur le multitraitement permet d’extraire, de convertir et de produire le XML à partir de presque n’importe quel type de SGBD, à condition qu’une couche supplémentaire soit élaborée après l’extraction du sous-ensemble de données concerné.


[3] http://www.fao.org/agris/agmes

Page précédente Début de page Page suivante