Retour à l'index

Triangulation et Stéréophonie sémantique

Algorithmes de Recherche

Comment classer avec pertinence les données web (en 3 dimensions, ou presque) ?

Ce billet est la suite du précédent, pas étonnant ! Je ne pouvais pas finir les quelques explications (raccourcies) sur les méthodes (exotiques) d'indexation sans mentionner un des concepts les plus passionnants, avec quelques graphiques.

On pourrait intituler ce concept : "stéréophonie triangulaire", rien que ça, ou "triangulation diminuée", pire encore.

La géométrie définit particulièrement bien ce qu'est un point, par exemple : l'intersection de 2 droites est un point. L'application scientifique affectionne une autre définition, celle de la triangulation : il faut 3 "droites" pour trouver le "point" d'un épicentre sismique, autrement dit : il faut 3 sources d'écoute pour dessiner une zone (une marge d'erreur) où l'épicentre se situe. Définir sur une copie d'examem universitaire le point d'un épicentre sismique à partir de 2 sources d'écoute, vous coûtera un zéro mérité de la part n'importe quel correcteur... Et pourtant ! Et pourtant...

L'être humain possède 2 yeux. L'oeil se déplace de gauche à droite, de haut en bas. Il est donc, de façon relative, facile de situer un point dans un espace 3 dimensions avec ses 2 yeux.
Pourtant, avec seulement nos 2 oreilles, inamovibles, sans possibilité d'incliner nos tympans en haut ou en bas dans l'oreille comme l'oeil le fait dans son orbite, il est possible de situer un son en haut ou en bas. Avec 2 oreilles en opposé sur les côtés de la tête, définir un son à droite ou à gauche est simple, mais comment faisons-nous pour le définir en haut ou en bas ?
Avec 2 oreilles sur les côtés, un son émis à droite est entendu plus fort par l'oreille droite. Mais, un son émis en haut, à égale distance de l'oreille droite et de l'oreille gauche, comment faisons-nous pour le situer en haut ?
Comment faisons-nous, avec un son émis derrière la tête, pour le différencier d'un son émis devant ?

Comment ?

Les pavillons jouent un rôle important dans la répercussion des ondes par l'avant ou par l'arrière des oreilles. Mais, grâce à 2 sources d'écoutes unidirectionnelles, opposées, sur un même axe, pouvoir définir un point dans un espace à 3 dimensions est très intéressant. Hiérarchiser plusieurs plans de sons différents l'est tout autant.
Résoudre ce problème permet de dessiner des figures 3 dimensions insoupçonnées propres a chaque page web, de dégager différents plans de données, les ressources de représentation sont illimitées.

Voici quelques distributions peu évoluées, mais suffisantes visuellement. Les axes n'ont pas tous la même échelle d'un graphique à l'autre, mais tout est normé.

1er exemple :
Page web de 45 Ko (HTML uniquement), très bonne qualité syntaxique, vocabulaire riche, un seul thème traité. Observez les différentes isogrades nettement visibles, certaines horizontales, d'autres verticales courbées. Position clé sur le graphique : le point esseulé en bas à gauche est l'origine des isogrades exponentielles. (Voir le 4e graphique pour une page équivalente de grande taille.)


2e exemple :
Page web de 200 Ko, très mauvaise qualité syntaxique, vocabulaire pauvre (malgré 200 Ko d'HTML), proche du spam. Les isogrades horizontales ont donc disparues, les verticales sont circulaires (contre exponentielles). Position clé : la configuration du point esseulé en bas à gauche a changé. Figure typique d'une page de spam de grande taille, pourtant ça en n'est pas vraiment une... mais, syntaxe et vocabulaire pauvres.


3e exemple :
Page de spam de 30 Ko. Page récurrente des "Google Groups" français, casino et poker. C'est le contraire de l'exemple précédent : les isogrades verticales ont visuellement disparues, mais "explosion" typique de l'axe F1, l'axe F3 est à son maximum possible de 1 avec un écart très prononcé avec la deuxième isograde. Le point en bas à gauche est ici une mauvaise piste.


4e exemple :
Page d'accueil de l'Expansion.fr, 150 Ko. Bonne qualité syntaxique, vocabulaire riche, plusieurs thèmes traités, beaucoup de liens et de menus. Graphique parfait, 2 systèmes d'isogrades, courbes exponentielles, éventail, point esseulé... Revoir le 1er graphique pour une page équivalente de petite taille, et le 2e pour son opposé spam.


5e exemple :
Exemple très intéressant. Difficulté d'indexation des pages Wikipédia, parfois vides de sens mais utiles dans une encyclopédie. Page de définition de l'astéroïde 163693 (!!!), définition succinte mais inévitable, 28 Ko grâce aux menus et tableaux, beaucoup de liens comme au 4e. Les caractéristiques du graphique ont tout d'une page de spam de petite taille : le point isolé bas gauche n'est pas une "belle" origine, les axes F1 et F3 sont aux maximums, les 2 premiers plans supérieurs dessinent un gap important, pas de réelles isogrades verticales.


Le prochain post, prévu pour le 22.06, vous réserve encore quelques graphiques simples de comparaison de pages de résultats Google, Yahoo et Orange.


© Droits d'auteur JungleKey.fr - Bourgery Florent

Propulsé par © ultraminiblog