Import de fichier HTML statique
Notre étude de cas pour importer 210 000 pages html constituées d'environ 450 modèles types.
Pour le site d'une des plus grosse administration Française, réalisé avec TYPO3, nous avons été solicité pour prendre en charge l'import des donnés du site existant.
Les spécifications étaient les suivantes:
Pour la partie HTML, nous utiliserons un script d’import massif (PHP/MySQL/Bash) qui utilisera des expressions régulières pour récupérer uniquement le contenu central des pages (contenu hors design). Nous en profiterons pour nettoyer le code source HTML (ID/CLASS ne servant plus et/ou balise dépréciés). Toutes les URL contenus dans les pages seront traités (notamment pour les fichiers téléchargeables déplacés dans le répertoire fileadmin).
Après analyse détaillée des 210 000 pages ( 3jours de travail ) nous avons pu isoler 1882 types de pages complètement différents.
Chaqun de ses types de pages, correspondant le plus souvent à un mini-site indépendant, avec sa propre charte graphique, contenait plus ou moins de pages. Ces pages étaient pour la plupart assez similaires, pour d'autres, contenait des erreurs de syntaxe HTML, ou des petites différences.
La bonne approche serait donc de réduire le travail d'import à la création de 1882 modèles, puis de les appliquer ensuite récursivement sur les dossiers qui les utilisent.
Bien entenu, au moins 25% des pages ne correspondant pas exactement au modèle, un travail d'import semi-automatique reste obligatoire.
La plateforme était intégrée avec Templavoila.
Nous avons choisis de développer une extension sur mesure pour remplir cette mission.
Le travail d'import de pages statiques avec TYPO3 se déroule en 3 étapes.
- Création d'un modèle d'import
- Selection de la page HTML qui va servir de modèle
- Mapping des zones de contenu
- Association du modèle avec une datastructure du site
- Enregistrement du modèle - Association des zones du template d'import avec les zones de contenu du template Templavoila
- Création des filtres de remplacement de balises anciennes
- Ensuite l'import
- Choix d'un dossier
- Choix d'un modèle d'import
- Lancement de la procèdure d'import
- Vérifications
Eventex news
Eventex à la T3UNI
Annecy accueillera encore une fois l'université d'été française de TYPO3, la fameuse « T3UNI11 » :...
plus...Nouveau site TYPO3.fr
La communauté TYPO3 Française est fière de vous présenter le nouveau site...
plus...TYPO3 lors des Hackweeks 2010
Intervention pour la communauté TYPO3 lors des hackweeks à Amiens.Le site officiel :...
plus...Eventex focus projets
Géolocalisation et TYPO3
Notre module de géolocalisation permet, au sein de TYPO3 de créer des points sur une carte...
plus...Import de fichier HTML statique
Notre étude de cas pour importer 210 000 pages html constituées d'environ 450 modèles types.
plus...Le coin des experts TYPO3
Templavoila Framework
La présentation d'Eventex sur Templavoilà Framework à l'université d'été de TYPO3
plus...Mise en forme CSS
Conseils et bonnes pratiques pour la programmation de CSS
plus...L'actu Web vu par nos experts
Pas d'article dans la liste.

















