Comparer visuellement les fichiers PDF | hakkaday
Parfois, le problème semble difficile, mais une bonne perspicacité peut le rendre facile. Si on vous demandait d’écrire un programme pour comparer deux fichiers PDF et montrer les différences, à quel point cela serait-il difficile à votre avis ? Si vous êtes [serhack]tu vas réussir beaucoup plus facile que vous pourriez imaginer.
Bien sûr, faire quelque chose de simple dépend parfois d’hypothèses simplificatrices. Si vous attendez un utilitaire « de type différences » qui affiche les insertions et les suppressions, ce n’est pas ce qui se passe ici. Au lieu de cela, vous verrez une image du PDF avec les modifications marquées d’une case rouge. C’est facile car le programme utilise les utilitaires disponibles pour afficher les fichiers PDF sous forme d’images, puis compare simplement les pixels dans les images résultantes, en dessinant des cases rouges sur les parties incompatibles.
C’est évidemment mieux pour les fichiers PDF qui ont quelques modifications. L’insertion d’un paragraphe, par exemple, rend la sortie inutile. Ainsi, vous pouvez envisager d’extraire le texte d’un PDF en utilisant quelque chose comme pdf2text (qui utilise la même bibliothèque de base que celle utilisée pour créer des images).
Le programme affiche de nombreux messages sur les fichiers manquants, mais il semble quand même faire le travail. Voici le résultat de la comparaison de deux versions de la page d’accueil de Hackaday capturées en PDF avec un intervalle de quelques minutes :
Cependant, vous pouvez voir que si un nouvel article est publié et que tout dérape, vous n’aurez qu’une pépite rouge géante.
Encore une idée intelligente. Étonnamment, il existe de nombreux outils disponibles pour cela, même si nous l’avons fait Trouvez-en quelques autres. Il y a bien sûr beaucoup de Outils Linux pour le traitement des fichiers PDF. beaucoup d’entre eux Mélanger d’autres outils comme ça.