Retour à l'index

Technologie JungleKey

Comparatif Yahoo-API Yahoo-JungleKey

Un piège a été tendu aux différents moteurs de recherche. Ils ont été soumis à une requête difficile : "ps 3", pour PlayStation 3.
(Ce post est la fin d'une série de comparatifs dont le premier est le mode d'emploi : Google-Yahoo-Orange.)
Le premier graphique, ci-dessous, est un simple dénombrement d'occurences dans les pages de résultats des moteurs étudiés.



Notez la différence entre Yahoo (en rouge) et JungleKey (en vert). JungleKey utilise les API Yahoo (Search et BOSS), il est donc intéressant d'observer que Yahoo ne distribue pas les mêmes résultats dans ses API et dans son moteur de recherche proprement dit. La requête utilisée est "ps 3", option recherche francophone, le 22.06.2009.

Les pages de résultats correspondants sont Yahoo à gauche, JungleKey à droite :

   


Deuxième graphique, chaque résultat des pages de résultats a été soumis à des tests de qualité sémantique (qualité syntaxique, richesse du vocabulaire, correspondances...), tous ces tests sont indépendants de la requête "ps 3".



On s'aperçoit, malgré des pages différentes de résultats, que les qualités sémantiques des résultats proposés par Yahoo et ses API (JungleKey) sont très proches. A priori, ces tests de qualité "interne" ne signifient pas grand chose puisqu'ils sont totalement détachés de la requête. Pourtant, on verra avec les méthodes de pertinence suivantes que la hiérarchie entre les moteurs reste toujours la même.

Les graphiques suivants sont donc de véritables profils de pertinence, dépendant de la requête "ps 3". Chaque résultat des pages de résultats a été soumis à un test de pertinence. La méthode de calcul utilisée pour estimer cette pertinence, parfois subjective, attribue des points différents pour chacunes des exigences suivantes (séparées par des points-virgules) :
2 points pour : la page proposée contient une photo suffisante de la console de jeu PlayStation 3 ; un descriptif ; des caractéristiques techniques détaillées ; son prix ; des jeux.
1 point pour : une animation flash dédiée à la console (matériel) ; une vidéo ; des accessoires ; des actus ; des astuces ; prix de jeu ; photo de jeu ; des promotions ; une newsletter ou un flux ; d'autres consoles ; photo d'autres consoles.
1/2 point pour : un champ de recherche ; un chargement rapide de la page.
-1 point contre : une publicité non sollicitée ; plus de 4 pages écrans lourdes.

Ce système de points est, bien entendu, discutable. Plusieurs systèmes ont été étudiés, leurs résultats sont à peu près tous équivalents. Les exigences à 2 points forment un total de 10 points ; ceux à 1 point totalisent 12 points ; les 1/2 points ne concernent pas la requête "ps 3" ; les malus -1 point sont à la "hauteur" de "l'agacement" rencontré.

Sur les graphiques suivants, les résultats de recherches sont en ordre sur l'axe des abscisses (le premier résultat proposé sur la page de résultats du moteur est placé en 1 sur les abscisses), l'axe des ordonnées représente la pertinence du résultat correspondant, le maximum est de 22.5, pour exemple la page officielle au 25.06.09 de la PS3 http://fr.playstation.com/ps3/ obtient 15.5 :



La pertinence des pages présentées dans les API Yahoo (courbe JungleKey) est nettement inférieure à Yahoo proprement dit.
Google et Yahoo sont les 2 seuls à proposer 10 résultats pertinents sur 10, leur tendance est normalement décroissante.
Bing souffre de son premier résultat : un lien mort. JungleKey est un peu chaotique et ne propose pas le site officiel, la page Wikipedia est proposée dans un encadré dédié à part. Exalead semble plus chaotique mais propose le site officiel, la page Wikipedia est en 8e position. Orange est tombé dans le piège bien plus que les autres, seul 3 résultats concernent la console de jeu, le 1er résultat a le mérite d'être une page officielle.

Pour chaque moteur, les résultats de pertinence ont ensuite été classés par ordre décroissant, puis compilé dans un même graphique :



Résultat des courses, Google caracole en tête, le nouveau Bing n'est pas loin mais tombe à la fin, Yahoo est très proche de la tête et ne tombe pas, Exalead suit à la trace Google dès le départ avant de s'effondrer au milieu, l'API Yahoo n'est pas très bien placée, Orange s'effondre très rapidement avec 1 lien mort et des pages sur le Parti Socialiste, "ps" et "ps 3" étant très proche...

Nous avons donc soumis ces moteurs à 3 méthodes de calcul : les occurences de la requête dans les pages de résultats, une qualité sémantique indépendante de la requête et une mesure de pertinence des résultats dépendante de la requête. A priori, seule la dernière méthode (longue et lourde) est jugée fiable pour déterminer une hiérarchie pertinente des moteurs de recherche, puisqu'elle analyse chaque résultat et dépend de la requête soumise. Et pourtant, avec force, les 2 premières méthodes dessinent déjà précisément cette hiérarchie. La 1ere méthode est un comptage simpliste du nombre de "3", "ps" ou encore "playstation" dans les pages de résultats, et elle produit déjà une très bonne hiérarchie ! La 2e méthode est indépendante, et elle aussi donne de bons résultats !
Ce post est la fin d'une série de comparatifs, les autres posts indispensables sont : Google-Yahoo-Orange et Bing-Ask-Exalead.


© Droits d'auteur JungleKey.fr - Bourgery Florent

Propulsé par © ultraminiblog