Recherche avancée : Index search vs SOLR !
TYPO3 intègre un moteur de recherche indexée, [indexed_search], que nous avons l'habitude de mettre en place et qui réponds aux demandes de recherche courantes. Cependant, notre analyse des demandes de nos clients les plus exigeants nous a permis de mettre clairement en évidence que ce module ne réponds pas à la demande a cause de plusieurs points:
- Lenteur sur des sites a fort trafic: indexed search peine à indexer les documents et les contenus.
- Tables de stockage des index assez vite enorme ( nous avons vu des tables de 35go ...), ce qui impacte TYPO3 qui utilise la même base.
- Pas de sugestion de recherches intelligentes ( par exemple une recherche sur "integraTTeur" ne donne pas de résultats et indexed search ne propose pas de rechercher sur "integraTeur" )
- Obligation d'utiliser la recherche avancée, très complexe pour effectuer des recherches fines.
- Lenteur à la recherche, plusieures secondes (30 ) peuvent s'écouler lors d'une requette si la requette n'a pas déja été effectuée et donc mise en cache.
- Seulement les pages affichées sont indexées et seulement les pages qui peuvent être mise en cache. Les pages sur lesquels les caches sont désactivés ne sont pas indexées.
- Les pages traduites sont indexées comme des pages différentes, car identifées par un id différent.
- Si une page possède du contenu visible uniquement par des utilisateurs enregistrés, ce contenu ne sera pas visible dans la recherche, même si c'est un utilisateur enregistré qui effectue la demande.
- La position des mots n'est pas stockée, seulement la fréquence d'apparition.
- La pertinence des résultats est basée uniquement sur la fréquence d'apparition du mot ( par exemple, si vous effectuez une recherche sur " ateliers d'initiation à l'informatique " qui correspond à une expression qui existe tel quel dans le site, le premier résultat ne sera pas l'article qui contient l'expression exacte, mais celui qui contiendra le mot ateliers le plus de fois, même s'il s'agit d'atelier poterie..
- Indexed search ne gère pas les mots vides, on peut effectuer une recherche sur " a ", "le", "et" ce qui peut perturber l'affichage des résultats.
En résumé, indexed search est une solution gratuite, fiable, facile à installer et qui convient parfaitement aux sites de petites tailles et moyenne taille, mais qui montre assez vite ses limites sur des projets plus ambitieux.
Solr, une solution robuste et professionnelle
Le moteur de recherche que nous proposons pour répondre aux besoins de recherche de nos client est une solution professionnelle d'entreprise de recherche dédiée, basé sur la librairie professionnelle Lucène.
Nous avons étudiés différentes solutions, googlesearch ( impossible de séparer les données publiques et privées, pas de catégorisation des résultats mais bonnes performances et intelligence ), omn_search ( plus performant qu'indexed search mais peu personnalisable ) et Solr Server.
SOLR server est utilisé par des grands comptes:
La liste complète des sites utilisent solr et qui ont souhaités y être listés se trouve à cette adresse: wiki.apache.org/solr/PublicServers
En voici un extrait :
- http://www.aol.fr/
- music.aol.com
- yellowpages.aol.com
- recipe.aol.com/recipe/browse
- autos.aol.com
- travel.aol.com
- realestate.aol.com/faceted-search
- http://www.stylelist.com/
- www.referencecenter.com/ref/home www.webcity.fr
- www.voici.fr
- www.gala.fr
- www.cuisine-et-recette.fr
- Disney.com
- www.apple.com
- nebula.nasa.gov/services/
- www.mtv.com
- www.citysearch.com ( l'index contient 19 million de documents sur une structure multi server. Le moteur est utilisé par environ 3 millions de visiteurs par jour. )
- www.manta.com/mb ( Catégorisation des résultats par localisation et type d'industrie et filtrage par volume de vente, nombre d'employés et publique/privée. 14 million d'entreprise sont indexées, le moteur réponds à environ 10 requettes par secondes.
- reviews.cnet.com ( Solr est utilisé pour la recherche de produits et la catégorisation )
- www.hitflip.de (Interessant car tourne sans problème sur un serveur de petite dimension, Intel Xeon 5130 avec 2 GB of RAM et répond à entre 30k-50k recherches par jour )
- www.gamespot.com
- digg.com
Des fonctionnalités puissantes et des atouts qui font la différence
- solr est executé en dehors de TYPO3 et de sa base de données, pas d'impact sur TYPO3
- solr est extremement rapide ( generalement moins d'une demi seconde pour afficher un résultat )
- Navigation dans les résultats appelé faceting, c'est une catégorisation qui apparait après l'affichage du résultat ( voir étude de cas ) et tri des résultats.
- solr gère la recherche approximative " fuzzy search" qui accepte les fautes de syntaxe, d'orthographe et de frappe
- 5. solr crée sa base de donnée avec un index inversé, qui optimise la recherche
- solr gère les mots vides et ne les prends pas en compte dans la recherche
- solr permet à l'administrateur d'augmenter / baisser la pertinence d'un mot
- mise en évidence des termes trouvés
- Auto-completion d'aide à la recherche, des sugestions qui existent dans le site apparaissent dès le début de la saisie
- Une interface d’administration Web
- Architecture extensible basée sur des plugin 12. Statistiques Pour résumer, solr est un moteur de recherche dédié, adapté à TYPO3 qui propose une logique de recherche proche de google: " une recherche simple pour l'utilisateur, qui cache des fonctionnalités puissantes et naturelles à l'utilisation "
Eventex news
Eventex à la T3UNI
Annecy accueillera encore une fois l'université d'été française de TYPO3, la fameuse « T3UNI11 » :...
plus...Nouveau site TYPO3.fr
La communauté TYPO3 Française est fière de vous présenter le nouveau site...
plus...TYPO3 lors des Hackweeks 2010
Intervention pour la communauté TYPO3 lors des hackweeks à Amiens.Le site officiel :...
plus...Eventex focus projets
Géolocalisation et TYPO3
Notre module de géolocalisation permet, au sein de TYPO3 de créer des points sur une carte...
plus...Import de fichier HTML statique
Notre étude de cas pour importer 210 000 pages html constituées d'environ 450 modèles types.
plus...Le coin des experts TYPO3
Templavoila Framework
La présentation d'Eventex sur Templavoilà Framework à l'université d'été de TYPO3
plus...Mise en forme CSS
Conseils et bonnes pratiques pour la programmation de CSS
plus...L'actu Web vu par nos experts
Pas d'article dans la liste.









