mercredi 24 août 2005 - par Fred Cavazza

Connaissez-vous les micro-formats ?

Le web est en pleine crise de croissance : trop de contenus, trop de sites, les utilisateurs en quête d’informations précises sont noyés sous la masse. Il apparaît ainsi comme une nécessité de pouvoir industrialiser la recherche et la collecte d’informations. Les moteurs de recherche (Google, Yahoo !...) et outils de syndication (Copernic...) sont là pour nous aider mais quid si votre besoin est plus précis ? Seuls les agents intelligents sont capables de se substituer à un opérateur humain pour effectuer une recherche réellement fine mais voilà, sans données structurées ils ne peuvent pas travailler.

Dans ce contexte, faut-il abandonner l’internet tel que nous le connaissons et en bâtir un nouveau sur le principe du web sémantique ? Pas forcément. Et c’est là que les micro-formats entrent en scène et apportent une solution intermédiaire. Mais avant de nous plonger dans le sujet, revenons sur quelques notions-clés.

C’est quoi du contenu non sémantique ?

Mon CV est un bon exemple de contenu non sémantique : c’est une simple page HTML qui représente quelque chose pour un opérateur humain (un recruteur y retrouve tout de suite ses marques) mais qui ne veut rien dire pour un robot. Après tout, cette page n’est en fait qu’une suite de caractères.

C’est quoi du contenu sémantique ?

Mon profil FOAF est un très bel exemple de contenu sémantique : du contenu structuré à l’aide de balises descriptives (des méta-données) qui ont beaucoup de sens pour un robot (il va parcourir le fichier et ne récupérer que les données qui sont inclues dans certaines balises). En revanche, pour un être humain, c’est du charabia, essayez donc de lire ce fichier avec votre bloc note et vous verrez !

Les micro-formats : une solution semi-sémantique

Le principe des micro-formats est d’associer des micro méta-données à du contenu non structuré existant, c’est à dire donner un peu de sens à des pages HTML sans avoir à les réécrire ou à les transformer. Pourquoi un peu ? Parce que ces micro-formats prennent la forme de petites propriétés que l’on rajoute à des balises HTML existantes. Et dans une propriété, on ne peut pas dire grand chose (juste ce qu’il faut). Par exemple le micro-format XFN permet d’ajouter une simple notion de relation à une liste de liens (blogroll). Ça ressemble à du FOAF mais en beaucoup plus simpliste.

Quel intérêt ?

Rendre exploitable par des robots du contenu créé à la base pour des humains. Exploitable veut dire qu’à partir d’une requête structurée il est possible de rapatrier des informations précises. Par exemple il va sur le site XX pour parcourir sa liste de liens et me rapatrie tous les sites dont les auteurs se connaissent personnellement. Ça n’a l’air de rien, mais ce type de requête structurée peut vous éviter d’avoir à investir des milliards de dollars dans un algorithme d’indexation plus performant que celui de Google.

Est-ce la fin du web sémantique ?

Pas du tout, au contraire ce n’est que le début. Vous comprenez bien que les micro-formats ne rendent pas le même service que les langages structurés (FOAF, HR-ML, XBRL...). C’est en quelque sorte une étape intermédiaire vers de la structuration plus formelle du contenu.

Et maintenant ?

Il existe une multitude de micro-formats, essayez donc d’en trouver un qui peut répondre à un besoin spécifique de recherche. Je vous recommande le site de référence suivant : Microformats.org ainsi que le site de l’Ouvre boîte qui en parle également.




Réagir