lundi 12 septembre 2005 - par Jean Véronis

Web : Google, Blogger et le splog

Les splogs (néologisme formé de spam + blog) sont aux blogs ce que le spam est au mail... Des nuisances destinées à vous vendre du Viagra, ou d’autres services plus ou moins douteux. La recette en est simple : ouvrez-vous un blog gratuit (ou des centaines...), truffez-le de textes bidons, mais surtout de liens qui pointent vers le vrai site où vous allez nous vendre quelque chose (ou probablement nous arnaquer). Il n’y a plus qu’à attendre que Google passe et comme il indexe très bien le spam ;-) les chalands vont affluer...

En voici un exemple caractéristique (chaque titre de billet pointe vers un site en .biz) :



Blogger est évidemment une source considérable de splogging. Gratuit, facile à créer et à alimenter par des procédures automatiques, et Google l’indexe plutôt bien (voir ici) —quand on sait que Blogger est une de ses filiales, on peut se demander s’il n’y a pas un petit coup de pouce discret (il suffit de comparer avec le positionnement des sites en blogspot.com sur Yahoo ou MSN). Mais le gros paradoxe, c’est que, ce faisant, Google se pollue lui-même en indexant généreusement le splog que Blogger génère...

Je viens de lire (avec un peu de retard) un billet extrêmement intéressant de Philip Lenssen (Google Blogoscoped) qui fait un sondage sur une cinquantaine de blogs de Blogger, et découvre que 60% d’entre eux sont du spam ! Je me doutais que la proportion serait élevée, mais à ce point j’en suis estomaqué. Si l’on peut se hasarder à extrapoler, cela veut dire que sur les 32 700 000 pages que Google prétend avoir indexées sur le domaine blogspot.com (Philip dit 7 500 000 mais la requête suivante me donne bien plus), plus de 20 millions seraient du spam.

Google semble avoir pris conscience qu’il se tirait une balle dans le pied avec cette affaire, et apparemment des mesures ont été prises. Fin août, Blogger ajoutait un bouton "Flag" dans la barre de navigation qui apparaît (normalement) en haut de chaque blog, permettant aux internautes de dénoncer un site qui ressemble à du spam.



Ce bouton délatoire me paraît doublement douteux. Tout d’abord, il donne l’opportunité d’attaques coordonnées contre des blogs qui déplairaient à tel ou tel groupe ou communauté... ça fait un peu froid dans le dos [merci à Nathan Weinberg pour le lien]. Mais surtout, ce bouton est totalement inutile, car il est élémentaire d’enlever purement et simplement la barre de navigation de Blogger (comme j’en fais la démonstration sur ce blog !). Parfois, je me demande... Google et Blogger paient des chercheurs et des ingénieurs très cher pour inventer des trucs de ce style. Je n’en finis pas de m’émerveiller.

Mais plus sérieusement, il semble que Blogger (qui doit avoir aussi de bons ingénieurs dans le lot) ait mis en place un système de filtrage anti-splog efficace. Island Dave fait remarquer que lorsqu’on clique sur le bouton "Next Blog" de Blogger, on ne tombe plus sur du spam. C’est d’ailleurs confirmé par Blogger, qui dit avoir injecté de "l’Intelligence Artificielle" dans ses machines... Rien que ça !

En fait d’Intelligence Artificielle, les procédures pour détecter le spam sont assez connues. En voici une par exemple, que j’utilise dans mes cours pour expliquer quelques notions de base sur la distribution des mots dans les textes, la loi de Zipf (sur laquelle je reviendrai certainement un jour ou l’autre), etc...

Prenez un texte, n’importe lequel. Par exemple, le Petit Prince (ne cherchez pas, il n’est pas sur le Web, car il n’est pas libre de droits). Calculez le nombre de mots. Ah oui, il y a le problème de l’ambiguïté du mot mot... La phrase "le Petit Prince dessine le petit mouton" a-t-elle 7 mots ou bien 5 ? Les deux mon général ! Il y a 7 mots séparés par des blancs, mais seulement 5 mots différents. Pour s’y retrouver on parle d’occurrences dans le premier cas, de formes dans le second : 7 occurrences, 5 formes. Les anglophones parlent de tokens et de types, respectivement...

Maintenant qu’on a mis les mots au clair, allons-y. Utilisons, par exemple, mon petit programme Dico (gratuit !). Le Petit Prince contient 15 352 occurrences et seulement 2412 formes. Cela fait un rapport formes/occurrences (F/O) de 0,16 (en anglais on parle de type/token ratio). Prenons maintenant le splog culinaire que j’ai utilisé comme exemple au début de ce billet. Rapport F/O de 0,015 seulement. Dix fois moins ! Pourquoi ? C’est très simple à comprendre. Le splog en question reprend les mêmes mots en boucle, et a donc une pauvreté de vocabulaire à peu près inconcevable dans un blog normal... C’est un poil plus compliqué, car le rapport F/O a tendance à diminuer avec la taille des textes. Il faut faire quelques correctifs, regarder les choses en deux dimensions, je vous passe les détails.

J’ai regardé sur les 50 adresses de Philip quelle était l’efficacité de cette stratégie, toute banale qu’elle soit. J’ai donc récupéré les 50 pages d’accueil des blogs, converti en texte, découpé en mots, calculé le nombre d’occurrences, de formes et le fameux rapport F/O. Rassurez-vous, j’ai des outils qui font ça tout seuls ! Il y avait un blog mal catégorisé par Philip, j’ai corrigé, et je n’ai retenu que les pages qui contenaient au moins 100 mots, c’est-à-dire la plupart (au-dessous, mon calcul n’a guère de sens !).

Voici le résultat. J’ai mis sur un graphique le nombre d’occurrences et le rapport F/O pour chacune des pages. En bleu les blogs normaux, en rose les splogs.



On voit que tous les blogs "normaux" sont gentiment concentrés dans l’ellipse turquoise. La plupart des splogs sont complètement dans l’espace, avec des valeurs de F/O très faibles. Il n’y a que 7 ou 8 splogs qui sont mal catégorisés et qui se retrouvent dans la zone des blogs normaux. Pas si mal quand même pour une stratégie à la portée d’un étudiant de première année !

Et l’intelligence artificielle dans tout ça ? Il est vrai qu’il faut mélanger divers critères, m’enfin, intelligence artificielle, c’est un peu ronflant tout de même. Par exemple, il est judicieux de prendre en compte la distribution des liens sortants. Si la plupart pointent vers le même site, ça sent l’arnaque. Le nombre de liens entrants est un indice aussi : s’il y en a vraiment beaucoup, et venant de sites très diversifiés, il ne s’agit sans doute pas d’un splog. Etc. L’histoire du spam, c’est un peu celle du glaive et du bouclier. Les spammeurs, plutôt partisans du moindre effort, font simple au début, mais les anti-spammeurs mettent vite au point des parades. Les spammeurs doivent alors s’adapter, et ainsi de suite.

Il est très intéressant de regarder les blogs qui ont passé mon test et se retrouvent dans l’ellipse turquoise. Je ne veux pas leur faire de la pub, alors je ne mets pas de liens cliquables :

  • decor-home.blogspot.com
  • meds4u.blogspot.com
  • camouflagec54.blogspot.com
  • bangg0e.blogspot.com
  • digitalaudiocfd.blogspot.com
  • mlb-daily.blogspot.com
  • physicianemploymentpwt.blogspot.com
Ces sites ont pour caractéristique de reprendre des extraits de textes réels, par exemple des nouvelles (et en même temps, leurs liens sortants sont diversifiés). J’ai dû y regarder à plusieurs fois pour savoir si c’était réellement du spam, et je ne suis pas totalement convaincu pour certains. Après tout, il peut y avoir aussi des blogs qui servent à concentrer des nouvelles dans un domaine donné (même à caractère commercial), des petites annonces, des résultats sportifs, etc. La limite entre le nul, l’inutile, le commercial (qui sont cependant légitimes) d’une part, et le splog d’autre part me semble bien difficile à tracer. Finalement, oui, il faut sans doute de l’intelligence pour faire un bon travail dans le domaine, et ceux qui risquent de faire les frais sont les blogs marginaux, poétiques, expérimentaux, etc., qui ne satisfont pas aux critères du texte normal. Imaginez le comportement de l’Intelligence Artificielle de Blogger ou Google sur un site de création oulipienne ! Mais c’est sans doute le prix à payer pour que le Web ne se transforme pas en immense décharge publique...



Réagir