Table des matières
Le Grattage d'écran ou le grattage d'écran, nous permet d'extraire des informations d'une page Web en téléchargeant ladite page et en la traitant ensuite avec un programme; Ceci est très utile, surtout lorsque nous avons besoin d'informations mises à jour à partir d'un site Web qui n'a pas de API disponible ou certains Service Web.Pour effectuer un Grattage d'écran, il suffit de télécharger le contenu et de pouvoir le manipuler pour en extraire ce qui nous intéresse, pour cela nous pouvons utiliser diverses techniques telles que l'utilisation d'expressions régulières ou peut-être nous aider avec d'autres bibliothèques telles que Bien rangé.
Qu'est-ce que Tidy ?
Pour pouvoir lire un HTML Il faut faire confiance à sa structure, ceci car comme on ne sait pas exactement de quel contenu il a, au moins on sait que si on cherche des structures HTML quelque chose que nous pouvons obtenir, cependant, pas toujours le HTML il est bien formé, soit à cause d'une erreur d'omission, soit parce que le programmeur sait que certains navigateurs ont tendance à interpréter le HTML même s'il y a quelques défauts.
À ce stade entre en jeu Bien rangé, qui n'est rien de plus qu'un outil qui nous permet de réparer du HTML malformé, il est hautement configurable et nous permet de personnaliser la manière dont il doit interpréter les corrections qu'il peut apporter, de cette manière nous saurons avec certitude quel type de document aboutira à la fin.
Voyons d'abord une image d'un code HTML Avec de nombreuses erreurs, ce code peut être interprété par certains navigateurs, cependant ce n'est pas un code correct dans sa formation :
Comme on peut le voir, chaque ligne a pratiquement une erreur, la plus courante est la non fermeture des balises, puis on voit des balises qui se ferment au mauvais endroit, etc.
Ensuite, nous utilisons Bien rangé et voyons le code déjà corrigé, là nous réaliserons à quel point cette librairie est importante et toute l'aide qu'elle peut nous apporter :
Dans l'image, nous voyons comment il a été corrigé par Bien rangé, nous devons noter que bien que Tidy soit une grande bibliothèque, elle ne peut probablement pas résoudre toutes les erreurs de HTMLCependant, cela nous aide beaucoup lorsqu'il s'agit de construire notre HTML bien formé.
Obtenez bien rangé
Il existe plusieurs façons d'obtenir Tidy via sa page officielle http://tidy.sf.net. nous pouvons obtenir la bibliothèque, mais il n'y a aucun moyen dans cette source de l'intégrer avec Python nous devons donc recourir à une source alternative, pour cela nous avons deux options : uTidy disponible sur http://utidylib.berlios.de et mxTidy disponible sur http://egenix.com/files/python/mxTidy.html, uTidy semble être le plus à jour des deux mais mxTidy est un peu plus simple à installer, c'est à chacun de voir lequel utiliser.
Voyons un exemple d'utilisation Bien rangé Une fois que nous l'avons installé, dans le code suivant, nous allons ouvrir un code HTML avec des erreurs et le lire à l'aide de Tidy, puis nous afficherons les informations à l'écran.
à partir du sous-processus import Popen, PIPE text = open ('messy.html'). read () tidy = Popen ('tidy', stdin = PIPE, stdout = PIPE, stderr = PIPE) tidy.stdin.write (text) bien rangé. stdin.close () imprimer tidy.stdout.read ()
Comme nous pouvons le voir, il est assez simple à utiliser Bien rangéUne fois qu'on a suffisamment confiance en elle en connaissant bien le comportement de la bibliothèque, on peut réaliser des choses très intéressantes.Avez-vous aimé et aidé ce tutoriel ?Vous pouvez récompenser l'auteur en appuyant sur ce bouton pour lui donner un point positif