05 juillet 2005

Exalead Desktop

Suite à mon billet citant Exalead, j'ai été contacté pour faire un béta-test de leur futur produit de desktop search. Théoriquement réservé à un certain nombre de béta-testeurs, le lien circule en réalité sur Internet, aucun mot de passe n'étant requis tout le monde peut essayer leur nouveau produit. Je les soupçonne un peu de vouloir créer de la valeur artificellement à leur produit, en le rendant à moitié secret...

J'ai donc essayé la bête sur la machine Windows que j'ai au laboratoire. Je précise que j'utilise principalement Linux, qui n'a pas encore de vrai logiciel de desktop search (il y a bien Beagle qui est prometteur, mais ce n'est pas encore ça). Cela signifie donc que (1) je ne connait pas bien les concurrents d'Exalead Desktop et (2) ne l'utilise pas "au quotidien", simplement pour tester un peu. Pour cela je ne peux pas vraiment juger la pertinence des résultats, et je me limiterait à des problèmes périphériques.

En fait c'est une application directe de leur moteur de recherche. C'est-à-dire, pour le comparer en deux mots au leader Google, que c'est plus complexe mais plus puissant. Il paraît qu'ils ciblent plutôt les entreprises que le grand public. Ils disposent d'outils tels que la recherche phonétique (pratique pour lé rekalsitran à l'ortograff, ou pour les mots étrangers romanisés de plusieurs façons, comme Irak et Iraq) ainsi que la recherche par expressions régulières. J'étais vraiment sur un nuage quand j'ai lu que je pourrais faire des recherches telles que /Alien(1|2|3|4)/. Pour la plupart des requêtes, je préfère quand même la simplicité et l'interface dépouillée de Google.

Pour en revenir à leur produit Desktop, je poste ici les commentaires que je leur ai envoyé. Bien sûr, je ne parle que de ce qui ne va pas - il va de soi que globalement j'aime bien leur produit (c'est rapide, c'est puissant), sinon je ne prendrait pas la peine de le commenter.

  • Il y a clairement un problème avec le japonais. Cela vient peut-être de l'analyse grammaticale qui est faite (une analyse qui ne semble pas adaptée à cette langue), car les caractères sont separes par un point au milieu. En clair, on a ça : フランス語学校:東京恵比寿 au lieu de ça : フランス語学校:東京恵比寿. Cela rend la lecture très difficile, et réduit de moitié la taille du resumé.
  • Très lié à ce problème, une recherche sur 恵比寿 (Ebisu, un quartier de Tokyo) ne renvoie aucun résultat, il faut pour cela entrer 恵・比・寿 (ce qui n'a pas plus de sens que P-a-r-i-s). C'est valable pour la version web aussi.
  • Quand on lance la partie client d'Exalead Desktop, c'est en fait une fenêtre Internet Explorer sans barre d'adresse, ni barre d'outils. Cette limitation n'a pas de sens : d'une part on perd tout moyen de navigation (comme le bouton back), d'autre part les utilisateurs qui utilisent autre chose que IE veulent peut-être utiliser le navigateur qu'ils ont choisi. On peut malgré tout accéder Exalead Desktop avec n'importe quel navigateur en utilisant l'adresse : http://localhost:18081/desktop, mais pour une raison mystérieuse sous Firefox les images n'apparaissent pas (avec IE pas de problèmes).
  • Il serait intéressant de disposer d'une interface de programmation pour pouvoir écrire des plugins pour les applications qu'on utilise. D'une part Exalead ne peut pas gérer lui-meme tous les formats existants, d'autre part une entreprise peut vouloir ajouter la gestion d'une de ses applications interne (son fichier client par exemple).
Bon, et si je veux vraiment pinaller : la mise en page faite avec des tables, ce n'est pas l'idéal. C'est bien plus commode avec des div et des spans. Malgré toutes ces remarques, Exalead vaut le coup d'œil ; autant la version web que desktop.

Ils en ont parlé aussi : Jean-Michel Billaud, Outils froids, Miss TICS...

2 commentaires:

François Lagunas a dit…

Nous travaillons actuellement sur le traitement des langues asiatiques,
et sur le chinois principalement. Le japonais présente des difficultés
supplémentaires, mais nous le prendrons prochainement en compte
également. En attendant, la partie kanji du japonais sera traitée de la
meme facon que pour le chinois, tandis que la tokenisation (séparation
en mots individuels) restera à faire sur la partie katakana et hiragana.

Les problèmes d'ordre linguistique que vous avez rencontrés (caractères
séparés par des points et pas de résultat à la requête)
disparaîtront avec la prochaine version d'Exalead Desktop et la
prochaine mise à jour du site beta.exalead.com : ce sera l'affaire de
quelques jours.
En vous remerciant de l'intérêt que vous portez à nos outils de
recherche,
Cordialement,

François Lagunas
Software Architect
Exalead

Erwan a dit…

Merci de votre réponse et de l'intérêt que vous portez à la langue japonaise (Exalead a aussi fait un petit buzz sur les sites japonais, bien qu'ils ne puissent s'en servir qu'en anglais).

Je ne sais pas comment ça fonctionne pour le chinois, mais c'est vrai que le japonais n'est pas simple à "tokeniser". Pour autant le problème est bien résolu, puisqu'une équipe de recherche du NAIST a mis au point ChaSen, qui fonctionne très bien. C'est à ma connaissance la référence en la matière.

Page (en japonais, mais la personne qui fera ce travail comprends probablement le japonais):
http://chasen.naist.jp/

À lire la licence, ça à l'air d'être utilisable même dans du logiciel propriétaire.

Cela dit, avec le problème des points en moins et une recherche en texte intégral, on devrait pouvoir commencer à utiliser Exalead en japonais.