Recherche avancée : Index search vs SOLR !

TYPO3 intègre un moteur de recherche indexée, [indexed_search], que nous avons l'habitude de mettre en place et qui réponds aux demandes de recherche courantes. Cependant, notre analyse des demandes de nos clients les plus exigeants nous a permis de mettre clairement en évidence que ce module ne réponds pas à la demande a cause de plusieurs points:

  1. Lenteur sur des sites a fort trafic: indexed search peine à indexer les documents et les contenus.
  2. Tables de stockage des index assez vite enorme ( nous avons vu des tables de 35go ...), ce qui impacte TYPO3 qui utilise la même base.
  3. Pas de sugestion de recherches intelligentes ( par exemple une recherche sur "integraTTeur" ne donne pas de résultats et indexed search ne propose pas de rechercher sur "integraTeur" )
  4. Obligation d'utiliser la recherche avancée, très complexe pour effectuer des recherches fines.
  5. Lenteur à la recherche, plusieures secondes (30 ) peuvent s'écouler lors d'une requette si la requette n'a pas déja été effectuée et donc mise en cache.
  6. Seulement les pages affichées sont indexées et seulement les pages qui peuvent être mise en cache. Les pages sur lesquels les caches sont désactivés ne sont pas indexées.
  7. Les pages traduites sont indexées comme des pages différentes, car identifées par un id différent.
  8. Si une page possède du contenu visible uniquement par des utilisateurs enregistrés, ce contenu ne sera pas visible dans la recherche, même si c'est un utilisateur enregistré qui effectue la demande.
  9. La position des mots n'est pas stockée, seulement la fréquence d'apparition.
  10. La pertinence des résultats est basée uniquement sur la fréquence d'apparition du mot ( par exemple, si vous effectuez une recherche sur " ateliers d'initiation à l'informatique " qui correspond à une expression qui existe tel quel dans le site, le premier résultat ne sera pas l'article qui contient l'expression exacte, mais celui qui contiendra le mot ateliers le plus de fois, même s'il s'agit d'atelier poterie..
  11. Indexed search ne gère pas les mots vides, on peut effectuer une recherche sur " a ", "le", "et" ce qui peut perturber l'affichage des résultats.

En résumé, indexed search est une solution gratuite, fiable, facile à installer et qui convient parfaitement aux sites de petites tailles et moyenne taille, mais qui montre assez vite ses limites sur des projets plus ambitieux.

 

Solr, une solution robuste et professionnelle

Le moteur de recherche que nous proposons pour répondre aux besoins de recherche de nos client est une solution professionnelle d'entreprise de recherche dédiée, basé sur la librairie professionnelle Lucène.

Nous avons étudiés différentes solutions, googlesearch ( impossible de séparer les données publiques et privées, pas de catégorisation des résultats mais bonnes performances et intelligence ), omn_search ( plus performant qu'indexed search mais peu personnalisable ) et Solr Server.

SOLR server est utilisé par des grands comptes:

La liste complète des sites utilisent solr et qui ont souhaités y être listés se trouve à cette adresse: wiki.apache.org/solr/PublicServers

En voici un extrait :

Des fonctionnalités puissantes et des atouts qui font la différence

  1. solr est executé en dehors de TYPO3 et de sa base de données, pas d'impact sur TYPO3
  2. solr est extremement rapide ( generalement moins d'une demi seconde pour afficher un résultat )
  3. Navigation dans les résultats appelé faceting, c'est une catégorisation qui apparait après l'affichage du résultat ( voir étude de cas ) et tri des résultats.
  4. solr gère la recherche approximative " fuzzy search" qui accepte les fautes de syntaxe, d'orthographe et de frappe
  5. 5. solr crée sa base de donnée avec un index inversé, qui optimise la recherche
  6. solr gère les mots vides et ne les prends pas en compte dans la recherche
  7. solr permet à l'administrateur d'augmenter / baisser la pertinence d'un mot
  8. mise en évidence des termes trouvés
  9. Auto-completion d'aide à la recherche, des sugestions qui existent dans le site apparaissent dès le début de la saisie
  10. Une interface d’administration Web
  11. Architecture extensible basée sur des plugin 12. Statistiques Pour résumer, solr est un moteur de recherche dédié, adapté à TYPO3 qui propose une logique de recherche proche de google: " une recherche simple pour l'utilisateur, qui cache des fonctionnalités puissantes et naturelles à l'utilisation "
 

Eventex news

Annecy accueillera encore une fois l'université d'été française de TYPO3, la fameuse « T3UNI11 » :...

plus...

La communauté TYPO3 Française est fière de vous présenter le nouveau site...

plus...

Intervention pour la communauté TYPO3 lors des hackweeks à Amiens.Le site officiel :...

plus...

Eventex focus projets

Notre module de géolocalisation permet, au sein de TYPO3 de créer des points sur une carte...

plus...

Notre étude de cas pour importer 210 000 pages html constituées d'environ 450 modèles types.

plus...

Le coin des experts TYPO3

La présentation d'Eventex sur Templavoilà Framework à l'université d'été de TYPO3

plus...

Conseils et bonnes pratiques pour la programmation de CSS

plus...

L'actu Web vu par nos experts

Pas d'article dans la liste.