vendredi 19 août 2005 - par Jean V�ronis

La pol�mique des pages manquantes sur Yahoo s’intensifie

La pol�mique autour de la taille de l’index Yahoo s’amplifie. M�me le New York Times s’y met. L’�tude tr�s d�taill�e des chercheurs du NCSA, dont je parlais ici, semble apporter de l’eau au moulin des sceptiques en concluant � la sup�riorit� num�rique de l’index de Google.

J’ai montr� toutefois dans les deux parties pr�c�dentes [ici et ici] que cette �tude �tait entach�e d’erreurs m�thodologiques qui invalident totalement ses conclusions. Dans cette troisi�me partie, je montrerai que ses hypoth�ses m�mes sont erron�es.

Comme je le mentionnais en fin de mon dernier billet, les auteurs du NCSA supposent que les moteurs ne font aucun filtrage (par exemple pour �liminer des sites de spam) et retournent tous les r�sultats contenus dans leur index sur chaque requ�te. Dans le cas contraire, il ne serait pas l�gitime d’extrapoler les r�sultats obtenus sur de petites fr�quences (moins de 1000) � l’ensemble de l’index, car le filtrage ne serait certainement ni proportionnel au nombre de r�sultats, ni identique pour chacun des moteurs compar�s. Or tout porte � croire que les moteurs op�rent un tel filtrage.

De nombreux internautes ont ainsi observ� un comportement apparemment �trange de Yahoo. Par exemple, B�atrice dans un commentaire sur ce billet nous explique que lorsqu’on tape une requ�te comme "azo�que", Yahoo donne une premier nombre de r�sultats sur la premi�re page (2380), puis r�vise ce chiffre � la baisse dans les pages de r�sultats suivante, et au final on n’obtient qu’un nombre tr�s inf�rieur (576, en �tendant la recherche aux r�sultats similaires).

J’ai test� Yahoo sur des mots dans une large gamme de fr�quences, et ce comportement est syst�matique. La perte augmente au fur et � mesure que la fr�quence diminue :

On peut bien s�r imaginer que ce comportement soit d� � un bug, ou � une tentative de manipulation des donn�es, mais c’est si visible que j’ai peine � croire que les ing�nieurs de Yahoo soient aussi n�gligents. Un ph�nom�ne analogue (mais moins marqu�) affecte d’ailleurs Google. L’hypoth�se la plus probable est justement celle d’un filtrage des r�sultats � chaque requ�te pour �viter des pages ind�sirables, et notamment du spam.

Le spam gangr�ne le web, et les moteurs font de gros efforts pour le contrer, car il peut d�grader de fa�on importante la pertinence des r�sultats. Il y a deux fa�ons compl�mentaires pour lutter contre ce fl�au :

d�tecter que le document ou le site est du spam lors de l’indexation et l’exclure de l’index ;
tenir � jour une "blacklist" qui permet d’exclure les URL reconnues comme spammeuses apr�s que l’index ait �t� calcul�.

Cette deuxi�me technique est particuli�rement int�ressante, car elle permet une r�activit� importante et une mise � jour dynamique sans que l’index ait � �tre recalcul� et propag� sur tous les serveurs du moteurs. C’est � mon sens ce m�canisme de filtrage que nous voyons � l’oeuvre dans les "disparitions" de pages constat�es.

Le moteur ne filtre �videmment pas tous les r�sultats en fonction de la blacklist pour une requ�te donn�e ! Si l’utilisateur demande 10 r�sultats, il suffit d’appliquer la black-list sur le d�but des r�sultats jusqu’� l’obtention de 10 r�sultats valides. Si l’index contient n r�sultats, et qu’on a d� en �liminer m, on peut d�j� par une simple r�gle de trois afficher une estimation du nombre total de r�sultats apr�s filtrage, soit 10 n / (10 + m). La grande majorit� des utilisateurs ne demandent jamais le deuxi�me �cran de r�sultats. Mais s’ils le font, on r�-applique le m�me m�canisme, et on a alors une estimation am�lior�e. Sachant qu’on a �limin� au total m’ documents, on peut afficher la nouvelle estimation 20 n / (20 + m’). Et ainsi de suite. Simple comme bonjour. Bien s�r, les moteurs utilisent certainement des fonctions plus compliqu�es que la r�gle de trois, car la proportion de spam n’a aucune raison d’�tre constante au fil des �crans de r�sultats : le classement par pertinence implique m�me qu’il y ait moins de spam dans le haut du classement.

C’est exactement le m�canisme que nous voyons � l’oeuvre chez Yahoo et Google. Le fait que la proportion de pages filtr�es diminue avec la fr�quence du mot-cl� est tout � fait logique. Deux facteurs y contribuent. D’une part les sites de spam utilisent massivement des dictionnaires et des listes de mots al�atoires pour fabriquer des textes artificiels qui essaient de flouer les moteurs. Ce faisant, ces textes artificiels utilisent une proportion de mots peu fr�quents bien sup�rieure � la normale. Par ailleurs, le principe de classement des r�sultats par pertinence implique sur les requ�tes � haute fr�quence que le sommet de la liste n’est probablement pas du spam, comme je le mentionnais � l’instant.

Le plus �tonnant est que les r�sultats publi�s par les chercheurs du NCSA eux-m�mes montrent tr�s clairement ce filtrage ! Dans leur table 3, ils montrent que le pourcentage de r�sultats r�els retourn�s par Yahoo sur leur ensemble de requ�tes n’est que de 27% (soit 73% de filtrage), contre 92% pour Google (8% de filtrage). Je cite [voir l’�tude ici] :

Table Three (n=10,012)

	Estimated Search Results (Excluding Duplicate Results)	Total Search Results (Excluding Duplicate Results)	Percent of Actual Results Based on Estimate	Estimated Search Results (Including Duplicate Results)	Total Search Results (Including Duplicate Results)	Percent of Actual Results Based on Estimate
Yahoo !	690,360	146,330	21.1%	821,043	223,522	27.2%
Google	713,729	390,595	54.7%	708,029	651,398	92.0%

Le filtrage appliqu� par Yahoo est bien plus important que celui de Google. Sans doute leur blacklist est-elle plus �toff�e. De fait, sur ces fameuses requ�tes-test, Yahoo retourne beaucoup moins de d�chets que son concurrent. C’est plut�t � mettre au cr�dit du moteur, mais en tous cas, ce m�canisme emp�che totalement la moindre extrapolation des r�sultats observ�s � la taille globale de l’index. Voil� donc une troisi�me raison pour laquelle je peux affirmer que les chercheurs du NCSA n’ont rien d�montr� du tout, si ce n’est que Google indexe tr�s bien le spam, et ispell !

Ces coll�gues ont d� �tre bien emb�t�s de lire mes critiques relay�es par le NY Times, et celles d’autres bloggeurs (ici). Pendant que je r�digeais ce billet, Serge Courrier m’a fait remarquer qu’ils ont modifi� leur page, et ont enlev� cette r�serve m�thodologique sur le filtrage. Donc ils se sont rendus compte de leur bourde, mais au lieu d’annuler leur �tude (tout le monde peut se tromper, ne leur jetons pas la pierre), ils ont pr�f�r� supprimer des pr�cautions m�thodologiques qui les honoraient. C’est une fa�on de faire. Pas celle que j’aurais choisie...

La pol�mique des pages manquantes sur Yahoo s’intensifie

R�agir