Commandes Pdfgrep pour la recherche de fichiers PDF Terminal Linux

Les systèmes d'exploitation sont basés sur des lignes de commande qui nous offrent de multiples options pour augmenter les capacités de distribution en étant capable d'exécuter des recherches, des actions d'administration, du support et bien plus encore.

Précisément l'une de ces options est liée à la possibilité de rechercher certains types de fichiers sous Linux et ainsi d'accéder facilement à leur contenu et c'est pourquoi nous parlerons aujourd'hui de pdfgrep qui se concentre sur la recherche de fichiers PDF.

Qu'est-ce que pdfgrepPdfgrep est un utilitaire de ligne de commande permettant de rechercher du texte dans des fichiers PDF de manière simple et fonctionnelle, ce qui nous permet de gagner du temps pour accéder à chaque fichier et rechercher le texte avec les outils PDF.
Certaines de ses caractéristiques sont :

  • Compatible avec Grep, nous pouvons exécuter de nombreux paramètres grep tels que -r, -i, -n ou -c.
  • Possibilité de rechercher du texte dans plusieurs fichiers PDF
  • Couleurs en vedette, cette option de couleur GNU Grep est prise en charge et activée par défaut.
  • Prend en charge l'utilisation d'expressions régulières.
  • Logiciel gratuit

1. Installer Pdfgrep sur Linux

Étape 1
Dans ce cas nous utiliserons Ubuntu pour lequel il suffit d'exécuter la ligne suivante. Là, nous entrons la lettre S pour accepter le téléchargement et l'installation des packages.

 sudo apt installer pdfgrep

Étape 2
Les autres options d'installation sont :

  • Téléchargez le fichier .TAR.GZ sur le lien suivant.

Étape 3

  • Ou exécutez la commande suivante :
 git clone https://gitlab.com/pdfgrep/pdfgrep.git
Étape 4
Saisissez ensuite chacune des lignes suivantes dans leur ordre :
 ./configure make sudo make install

2. Utiliser Pdfgrep sous Linux

Étape 1
Une fois pdfgrep installé, voici la syntaxe à utiliser :

 pdfgrep [OPTION…] MOTIF [FICHIER]
Étape 2
Chacun des éléments sont :
  • Option : Indique les attributs que nous pouvons ajouter dans la recherche, par exemple -je ou alors --ignore-case, qui ignorent la distinction des lettres majuscules et minuscules entre le motif que nous avons indiqué et celui qui doit correspondre au fichier.
  • Motif : indique une expression régulière étendue.
  • Fichier : C'est le fichier PDF dans lequel la recherche doit être exécutée.

Étape 3
Nous allons commencer par une recherche simple, par exemple, nous allons chercher le mot Solvetic dans le fichier Solvetic.pdf, pour cela nous exécutons la commande suivante :

 pdfgrep Solvetic Solvetic.pdf

AGRANDIR

Étape 4
Dans ce cas, ce terme n'existe qu'une seule fois dans ledit fichier, mais maintenant nous allons chercher le terme Windows dans un fichier PDF officiel de Microsoft et ce sera le résultat que nous verrons :

AGRANDIR

Étape 5
On voit que le mot recherché est mis en évidence ce qui facilite sa localisation. Maintenant, si nous ajoutons le paramètre -dans, Il sera possible de voir les résultats avec le numéro de page où ce terme a été détecté :

AGRANDIR

Étape 6
Une autre option que nous pouvons utiliser avec pdfgrep consiste à répertorier le(s) fichier(s) PDF qui contiennent un certain terme, pour cela nous exécutons ce qui suit :

 pdfgrep Solvetic * pdf
Étape 7
Ainsi, le fichier PDF contenant le terme Solvetic sera répertorié :

AGRANDIR

Étape 8
Si nous voulons ouvrir le fichier PDF, nous pouvons exécuter la commande suivante :

 xdg-open (Fichier.PDF)

AGRANDIR

Étape 9
Les options générales que pdfgrep nous offre sont :

-i, --ignore-caseIgnorez les distinctions de casse dans les fichiers source et d'entrée.

-F, --fixed-stringsInterprète PATTERN comme une liste de chaînes fixes séparées par des nouvelles lignes.

--cacheUtilisez un cache pour le texte rendu afin d'accélérer les opérations sur les fichiers volumineux.

-P, --perl-regexpInterprète PATTERN comme une expression régulière compatible Perl (PCRE).

-H, --with-filenameImprimez le nom du fichier pour chaque correspondance.

-h, --no-filenameSupprime le préfixe du nom de fichier dans la sortie.

-n, --page-numéroPréfixez chaque correspondance avec le numéro de la page où le terme de recherche a été trouvé.

-c, --compteSupprime la sortie normale et imprime le nombre de correspondances pour chaque fichier d'entrée à la place.

-p, -- nombre de pagesImprimez le nombre de correspondances par page. Cela implique -n.

--CouleurIl permet de mettre en évidence les noms de fichiers, les numéros de page et le texte correspondant avec différentes séquences pour les afficher en couleur dans le terminal, certaines de ses options sont Toujours, nuque ou automatique.

-o, --only-matchingN'imprime que la partie correspondante d'une ligne sans aucun contexte environnant.

-r, --récursifIl nous permet de rechercher récursivement tous les fichiers (restreints par --include et --exclude) sous chaque répertoire, en suivant les liens symboliques uniquement s'ils se trouvent sur la ligne de commande.

-R, --recursive-referenceIdentique à -r, mais suit tous les liens symboliques.

-silencieux ou -qIl nous permet de quitter l'application.

Avec ce pdfgrep devient une solution idéale lorsque vous travaillez avec des fichiers PDF dans des environnements Linux.

wave wave wave wave wave