Les bots contre le web 2.0 : sexe, mensonges et statistiques

Il a déjà été dit de nombreuses fois qu’un aspect fondamental du web 2.0 est l’intelligence collective que Tim O’Reilly décrit si bien. Cette intelligence collective tire parti du fait que les utilisateurs ne se contentent plus de lire mais aussi se mettent désormais à écrire, commenter, débattre, voter… un mot, participer, sur le web.

Evidemment, il y a ceux qui savent exploiter ce système : en gagnant des visiteurs sur son site grâce à un commentaire bien placé, en évangélisant les masses grâce à un article habilement écrit dans wikipedia, en augmentant ses revenus grâce à aux votes/notations d’utilisateurs plus ou moins réels.

Exemple typique : les articles bien notés dans Digg gagnent un nombre de visiteurs suffisamment important pour que l’on parle « d’effet Digg ». Or, à plusieurs reprises dans la courte histoire de Digg, des voix se sont élevées pour crier à la manipulation de l’outil par des groupes d’influences, des administrateurs de Digg ou encore des webbots.

Et voilà où est le problème : l’intelligence collective suppose que le monde est parfait et que 100% des utilisateurs seront humains, or dès qu’un service a du succès, il est quasi-certain que ce ne sera plus le cas. Les sites, marchands, et autres bidouilleurs peu scrupuleux connaissent trop les ficelles du web pour ne pas s’en servir… c’est ainsi qu’apparurent :
– les spameurs des commentaires des blogs (splog)
– les spameurs de wikis
– les robots voteurs
– les robots noteurs

Pour coller à l’actualité, certains d’entre vous auront ainsi peut-être remarqué que les votes de wikio étaient parfois très étranges, cela ne manque d’ailleurs pas de provoquer des remous et des débats… à la petite échelle de Wikio.
Mais les conséquences sont grandes puisque d’une part les Wikio, Digg et autres Fuzz redistribuent un traffic de plus en plus important (donc de plus en plus d’argent), et que d’autre part ces sites tirent leur pertinence des recommendations humaines.

Conclusion : dans la lutte pour la pertinence et contre les actions marketing, la lutte contre les robots n’est pas des moindres. Or, les anti-bots ne sont d’après moi pas encore à la hauteur des défis qui les attendent.

Passons en revue les méthodes classiques :
– identification du voteur par cookie : il suffit au bot d’effacer ses cookies !
– identification du voteur par IP : il suffit d’utiliser un proxy pour contourner le problème
– identification du voteur par compte : un peu plus dur, il faut alors créer des comptes manuellement ou automatiquement.

On peut aussi évoquer les méthodes anti-bot (CAPTCHA) :
– un texte en image à recopier
– un mot prononcé à écrire
– une question aléatoire à laquelle un humain sait répondre

Les deux premières méthodes ont leur parade avec les systèmes de reconnaissance visuelle et sonore. La troisième peut être solutionnée par un bot disposant d’une bonne base de données de réponses et d’un système d’analyse sémantique adéquat.

Et puis il y a l’anti-CAPTCHA (c’est à dire l’anti-anti-robot) ultime : celui qui fait appel à des utilisateurs humains à la recherche de contenu gratuit. Le principe est simple : les utilisateurs sont aguichés par une ressource gratuite (en général, du porno), on leur demande alors de répondre au système CAPTCHA à pirater pour accéder au dit contenu… et le tour est joué !

La solution se trouve peut être dans une analyse statistique des actions faites par les robots et les humains. On pourrait alors mettre en place des systèmes de filtres baysiens comme on le fait aujourd’hui pour éliminer le pourriel. Mais d’ici là, les robots auront certainement fait beaucoup de mal au web 2.0…