Comment cloner n'importe quel site Web avec HTTrack

Table des matières

HTTrack est un logiciel gratuit et multiplateforme dont le but est la capture Web, c'est-à-dire que tout ou partie d'un site Web est téléchargé, pour pouvoir ensuite le naviguer hors ligne. Il existe une version pour Linux appelée WebHTTrack, et sa version pour Windows s'appelle WinHTTrack. Nous pouvons télécharger le logiciel HTTrack depuis son site officiel :

Dans le cas de Linux, nous pouvons également l'installer à partir des référentiels, en utilisant la commande suivante.

 sudo apt-get installer httrack

Ce logiciel il est beaucoup utilisé pour copier des sites Web puis les télécharger sur un autre serveur et les utiliser pour rediriger le trafic vers la page de copie, envoyant les visiteurs vers une fausse page. Il est également utilisé par ceux qui souhaitent voir le code ou le fonctionnement d'un site Web particulier. Regardons un exemple avec le site Web httrack.com, qui est l'endroit où l'application est hébergée.

 httrack "httrack.com"
Cette commande téléchargera les fichiers du Web dans un dossier www.httrack.com, que l'on peut voir localement.

HTTrack prend n'importe quel site Web et en fait une copie dans le dossier ou le lecteur où nous sommes positionnés. Cela peut être utile lors de la recherche de données sur le site Web hors ligne, telles que des adresses e-mail, des informations utiles pour le référencement ou la structure d'un site Web. HTTrack est disponible à la fois sous Windows et dans une version pour Linux, et l'utilisation est la même que sous Windows, il dispose d'un intergaz visuel.

Pouvons utiliser Httrack pour les tests de pénétration et les tests de sécurité, car lors de la création d'une réplique d'un site Web, il permet d'analyser le contenu complet et les fichiers téléchargés, afin de déterminer qu'aucun fichier critique n'est vu par un attaquant. Lorsque nous collectons des données et des informations, nous pouvons effectuer des tests, rechercher et analyser du code ou des mots-clés, nous pouvons également collecter des données qui peuvent être utilisées ultérieurement.

Aussi de cette façon lles pirates utilisent les copies faites pour le télécharger sur un serveur avec un domaine de type Web copié pour émuler les sites Web, puis les utiliser via le phishing pour voler des données à des utilisateurs peu méfiants ou pour mener des attaques d'ingénierie sociale. Httrack a de nombreuses options et paramètres à utiliser pour améliorer le téléchargement pour cela la commande est utilisée :

 httrack --help

Certains paramètres importants que nous pouvons utiliser avec l'outil Httrack sont :

  • -m: indique la taille maximale du fichier en octets à télécharger, par exemple -m 20000000 équivalent à 20 mb.
  • -mime: utilisé pour télécharger uniquement un certain type de fichier que nous indiquerons avec son extension, par exemple avec la commande
 httrack www.WEB.com -mime : application / * + mime : application / pdf
Utiliser httrack est simple, nous devons ajouter le domaine du site Web que nous voulons copier puis lancer l'analyse positionné dans un répertoire de notre disque dur où nous allons stocker le site Web. Nous devons tenir compte du nombre de liens ou de contenus qu'un site Web peut avoir en raison de la quantité d'informations à télécharger. L'exploration de la copie du Web peut être utilisée pour rechercher des failles et des vulnérabilités qui peuvent mettre la navigation en danger, ainsi que pour déterminer quelles parties il convient de chiffrer ou d'augmenter la sécurité.

Si l'objectif du téléchargement est de trouver des informations sur une entreprise ou des listes d'utilisateurs, de téléphones ou d'autres données en particulier pour l'ingénierie sociale ou pour tenter d'usurper un site Web ou un login pour obtenir des données d'utilisateur, HTTrack est un excellent outil pour les deux tâches.

Interface graphique avec WebHTTrack
WebHTTrack est une interface graphique pour httrack qui est utilisée à partir d'un navigateur Web et autorise des copies de sites Web entiers pour un accès hors ligne et modifie automatiquement les liens. Des outils comme WebHTTrack peuvent aider et permettre la mise à jour de la copie sans avoir à se souvenir des paramètres pour télécharger ou copier un site Web et son contenu. Nous pouvons l'installer avec la commande :

 sudo apt-get install webhttrack
Puis à exécuter nous écrirons la même commande :
 webhttrack
À démarrer l'interface graphique, on peut passer directement par le menu des applications et nous recherchons l'application Browse Mirrored Websites.

Une autre option consiste simplement, comme nous l'avons dit précédemment à partir de la fenêtre du terminal, à écrire la commande webhttrack pour démarrer un serveur Web local sur le port 8080, puis nous ouvrons le navigateur en tenant compte du fait qu'il n'est pas en mode incognito ou privé et dans le navigateur, nous écrivons l'adresse localhost : 8080.

Cela nous montrera l'assistant graphique qui nous aidera à travailler avec httrack, pour commencer, nous devrons configurer la langue et cliquer sur Suivant. Ensuite, nous allons configurer un nouveau projet, l'avantage d'avoir l'interface graphique est que nous pouvons enregistrer les données des sites Web téléchargés et les paramètres utilisés dans un fichier texte.

Ensuite, nous allons attribuer le site Web que nous allons copier :

Ensuite, dans Définir les options, nous configurerons les paramètres et les filtres via un assistant :

Ensuite, après avoir configuré les filtres, sur l'écran suivant, nous commencerons par le scan.

Inconvénients de l'utilisation de HttrackL'utilisation de l'outil Httrack pour effectuer ce type d'analyse et de téléchargement à partir d'un site Web présente certains inconvénients tels que les suivants :

  • Il ne capture pas le contenu dynamique ou les pages scriptées.
  • Le téléchargement de sites trop volumineux ou contenant des fichiers volumineux peut entraîner le blocage du serveur.
  • Si nous utilisons httrack dans trop de connexions simultanées au même site Web, nous pourrions ralentir le serveur ou le mettre hors service.

Le tutoriel où un code est fait pour suivre les liens peut vous intéresser :

Suivre les liens Web avec Python

Avez-vous aimé et aidé ce tutoriel ?Vous pouvez récompenser l'auteur en appuyant sur ce bouton pour lui donner un point positif

Vous contribuerez au développement du site, partager la page avec vos amis

wave wave wave wave wave