Au-delà des limites
 
 

Import de fichier HTML statique

Notre étude de cas pour importer 210 000 pages html constituées d'environ 450 modèles types.

Pour le site d'une des plus grosse administration Française, réalisé avec TYPO3, nous avons été solicité pour prendre en charge l'import des donnés du site existant.

Les spécifications étaient les suivantes:

Pour la partie HTML, nous utiliserons un script d’import massif (PHP/MySQL/Bash) qui utilisera des expressions régulières pour récupérer uniquement le contenu central des pages (contenu hors design). Nous en profiterons pour nettoyer le code source HTML (ID/CLASS ne servant plus et/ou balise dépréciés). Toutes les URL contenus dans les pages seront traités (notamment pour les fichiers téléchargeables déplacés dans le répertoire fileadmin).

 

Après analyse détaillée des 210 000 pages ( 3jours de travail ) nous avons pu isoler 1882 types de pages complètement différents.

Chaqun de ses types de pages, correspondant le plus souvent à un mini-site indépendant, avec sa propre charte graphique, contenait plus ou moins de pages. Ces pages étaient pour la plupart assez similaires, pour d'autres, contenait des erreurs de syntaxe HTML, ou des petites différences.

La bonne approche serait donc de réduire le travail d'import à la création de 1882 modèles, puis de les appliquer ensuite récursivement sur les dossiers qui les utilisent.

Bien entenu, au moins 25% des pages ne correspondant pas exactement au modèle, un travail d'import semi-automatique reste obligatoire.

La plateforme était intégrée avec Templavoila.

Nous avons choisis de développer une extension sur mesure pour remplir cette mission.

Le travail d'import de pages statiques avec TYPO3 se déroule en 3 étapes.

  1. Création d'un modèle d'import
      - Selection de la page HTML qui va servir de modèle
      - Mapping des zones de contenu
      - Association du modèle avec une datastructure du site
      - Enregistrement du modèle


  2. Association des zones du template d'import avec les zones de contenu du template Templavoila

  3. Création des filtres de remplacement de balises anciennes

  4. Ensuite l'import
      - Choix d'un dossier
      - Choix d'un modèle d'import
      - Lancement de la procèdure d'import
      - Vérifications

 

 

 

Eventex news

Annecy accueillera encore une fois l'université d'été française de TYPO3, la fameuse « T3UNI11 » :...

plus...

La communauté TYPO3 Française est fière de vous présenter le nouveau site...

plus...

Intervention pour la communauté TYPO3 lors des hackweeks à Amiens.Le site officiel :...

plus...

Eventex focus projets

Notre module de géolocalisation permet, au sein de TYPO3 de créer des points sur une carte...

plus...

Notre étude de cas pour importer 210 000 pages html constituées d'environ 450 modèles types.

plus...

Le coin des experts TYPO3

La présentation d'Eventex sur Templavoilà Framework à l'université d'été de TYPO3

plus...

Conseils et bonnes pratiques pour la programmation de CSS

plus...

L'actu Web vu par nos experts

Pas d'article dans la liste.