[RESOLU] Différences entre 2 PDFs - Challenge ?

Vous recherchez un programme, une solution, posez votre question ici.
Répondre
Auteur du sujet
titusblinus
Petit Nouveau
Petit Nouveau
Messages : 17
Enregistré le : il y a 4 ans

[RESOLU] Différences entre 2 PDFs - Challenge ?

Message par titusblinus »

Bonjour à tous,
pour des raisons de gain de temps professionnel, j'ai besoin de rechercher les différences entre 2 PDFs.
Et j'ai ceci à faire pour de nombreuses paires de PDFs.
Humainement, on y arrive mais c'est super long !!!
Mon challenge serait de trouver une manière de faire automatique.
J'ai essayé avec Adobe Acrobat DC pro mais à partir du moment où il y a une ligne en plus dans un des 2 PDFs, il trouve que tout le reste est différent alors que l'être humain verrait qu'il y a juste une ligne vide de rajoutée et que le reste est identique par exemple.
Bref, je n'ai pas réussi avec Adobe Acrobat Pro ni avec d'autres outils en lignes.
J'ai même essayé une session live linux Ubuntu et je voulais faire des pdftotext et des wdiff suivant les conseils de chatgpt car personnellement, je n'y connais rien à ce niveau là, mais mes fichiers PDFs donnés en exemple ci-dessous ont donné un message d'erreur dont je ne me souviens plus lors du pdftotext.
Alors, voici un exemple de 2 fichiers que je voudrais faire comparer en automatique :
Chapitre1-V1
Chapitre1-V2
Alors, à votre avis, est-ce faisable ou est-ce trop demander à l'informatique ?
Est-ce que la marche est trop haute pour le challenge ?
En tout cas, elle le semble trop pour moi...
Mais ça me gagnerait des heures plutôt que de comparer les PDFs "à la main"...

Je vous remercie d'avance, si l'un d'entre vous trouve comment faire, je veux bien une explication sur comment faire.
N'hésitez pas, non plus, à remettre en cause mes essais avec AdobeAcrobatDC Pro ou encore avec Linux, mes compétences informatiques étant limitées, j'ai peut-être raté un tout petit quelque chose...
Encore merci,
A++,
TituX
Avatar du membre
nenyp
Dieu
Dieu
Messages : 3377
Enregistré le : il y a 11 ans

Message par nenyp »

@ titusblinus

Ouvre les PDF avec Word > onglet Affichage > Afficher côte à côte > onglet Révision > Comparer, sélectionne Comparer.
Clique sur Comparer deux versions d'un document (mode révision)
Windows 11 24H2 26100.3915
Système d’exploitation 64 bits
GeForce GTX 1070
Auteur du sujet
titusblinus
Petit Nouveau
Petit Nouveau
Messages : 17
Enregistré le : il y a 4 ans

Message par titusblinus »

nenyp a écrit : il y a 1 mois @ titusblinus

Ouvre les PDF avec Word > onglet Affichage > Afficher côte à côte > onglet Révision > Comparer, sélectionne Comparer.
Clique sur Comparer deux versions d'un document (mode révision)
Merci pour la proposition.
Malheureusement, j'avais aussi essayé cette méthode mais, soit j'ai été mauvais dans les options (et là, je veux bien des conseils), soit Word en fait trop, car comme Adobe Acrobat DC, il en fait trop et ne comprend pas qu'une simple ligne supprimée ne veut pas dire que tout le reste du document est différent.
Regarde avec mes 2 fichiers exemple, et redis-moi si j'ai mal choisi les options mais moi, je n'arrive pas à dire à Word de "comprendre" les modifications simples.

Merci encore,
et merci, en tout cas, d'avoir proposé une solution !

A++,
TituX
Avatar du membre
Barca
Ultra VIP
Ultra VIP
Messages : 1586
Enregistré le : il y a 5 ans
Localisation : CH

Message par Barca »

Essaye
https://xodo.com/fr/comparer-des-pdf
Logiciel gratuit à télécharger
je n'ai pas testé.
https://pdf.wondershare.fr/how-to/compare-pdf.html
La version 11 de Wondershare pdf element dont il est question.

Code : Tout sélectionner

TWL2.3C6D64786E24353233323431313D2C616E6F69637375666F62707D247E65 6D656C656664607D25627168637275646E6F677D2533343F23777F646E69677F2 562716774766F637F23777E21637B6162623F2F2A33707474786
Logiciel aussi performant qu'Acrobat, moins chiant à cracker et à maintenir en fonction. A remplacé Acrobat Dc depuis longtemps sur mes PC. Pas testé la partie comparer les pdf.
Auteur du sujet
titusblinus
Petit Nouveau
Petit Nouveau
Messages : 17
Enregistré le : il y a 4 ans

Message par titusblinus »

Barca a écrit : il y a 1 mois...
Merci Barca pour l'idée et le logiciel.
Malheureusement, celui-ci, comme les autres, voit 263 modifications entre les 2 fichiers, et ne voit pas les 2 qu'un humain verrait...
Grrr... Pas encore le bon logiciel.
Mais merci beaucoup pour l'idée...

Ne faudrait-il pas convertir le PDF en texte d'abord puis comparer les textes ?
Qu'en pensez-vous ?
Bien évidemment, il faudrait réussir à faire prendre de la hauteur au système automatique puisque un mot inséré fait 1 seule modification pour un humain mais x différences pour un système automatique.
Toute idée est la bienvenue...
Bonne fin de dimanche,
A++,
TituX
Dernière modification par LaDidi21 il y a 1 mois, modifié au total 1 fois.
Raison : Merci de citer UTILE !
Avatar du membre
LaDidi21
Modérateur
Modérateur
Messages : 13558
Enregistré le : il y a 15 ans

Message par LaDidi21 »

@titusblinus :
Pour ma part, j'utilise DiffPDF
DiffPDF 6.1.1 :

Code : Tout sélectionner

TWL2.3C6D64786E273933313D266460766669646D24616F6C6E677F646F23777F 646E69677F2D6F636E237265677961647F2F2A33707474786
Sinon, récupérer la version texte des PDF et les comparer avec n'importe quel outil de comparaison de texte.

-> Décryptage des liens du forum : extension "ThiWeb Crypt / Decrypt"™ ou Thiweb Live <-

Auteur du sujet
titusblinus
Petit Nouveau
Petit Nouveau
Messages : 17
Enregistré le : il y a 4 ans

Message par titusblinus »

LaDidi21 a écrit : il y a 1 mois...
Merci LaDidi21.
En fait, diffPDF, j'avais essayé aussi. Mais lui aussi, il avait été insuffisant.
Je pense que mon souci principal provient de l'extraction du texte du 1er PDF.
Si quelqu'un veut faire l'essai aussi, vous verrez le souci.

Bref, je recherche toujours une solution qui marche.

Donc, dans mes derniers essais, j'ai essayé aussi pdftotext ou encore de la conversion par Word, ce qui me convertit généralement bien le fichier2 mais pour fichier1, aucune des 2 méthodes ne convertit bien le fichier1 et il semble que ce soit le problème principal...
Je recherche encore.
Mais merci d'avoir proposé.
Toute idée complémentaire ou essais de votre côté, seront les bienvenus.
Je suis en train d'investiguer autour de macro VBA excel via conversion texte par Word mais c'est là que cela coince pour le moment...

Merci d'avance,
A++,
TituX
Dernière modification par LaDidi21 il y a 1 mois, modifié au total 1 fois.
Raison : Merci de citer UTILE !
Avatar du membre
LaDidi21
Modérateur
Modérateur
Messages : 13558
Enregistré le : il y a 15 ans

Message par LaDidi21 »

@titusblinus :
T'es un rigolo ^^
Ton V1 est en mode image, il n'a pas fait l'objet d'OCR (Reconnaissance de caractères).
Cela explique d'ailleurs pourquoi le V1 fait 20 Mo, là où le V2 pèse 2,2 Mo...
Comment veux-tu le comparer avec un vreai PDF dont le contenu est indexée ?

-> Décryptage des liens du forum : extension "ThiWeb Crypt / Decrypt"™ ou Thiweb Live <-

Auteur du sujet
titusblinus
Petit Nouveau
Petit Nouveau
Messages : 17
Enregistré le : il y a 4 ans

Message par titusblinus »

LaDidi21 a écrit : il y a 1 mois...
Salut LaDiDi21, me traiter de rigolo est peut-être hors des règles du forum. Enfin, j'avoue que ce terme est malaisant.
Je l'ai dit, je ne suis pas un expert informatique, et je n'ai jamais prétendu l'être.
Ben le V1, je l'ai ainsi... Je n'y peux rien.
Répondre à 'Faut-il le transformer et comment ?" serait plus bénéfique que de simplement me traiter de rigolo.
Enfin, il me semble.

Désolé si je ne suis pas bon en informatique...
A++;
TituX
Avatar du membre
LaDidi21
Modérateur
Modérateur
Messages : 13558
Enregistré le : il y a 15 ans

Message par LaDidi21 »

@titusblinus :
Merci de citer UTILE ! J'ai édité mais, la prochaine fois, ce sera poubelle direct.

Regarde la définition de rigolo :pensive:

Même sans être un spécialiste informatique, tu pouvais aisément remarquer que la taille des PDF variait d'un facteur 10... pour un contenu presque identique.
La V1 est en mode image et tu le vois aisément car tu ne peux pas sélectionner du texte.
Il faut utiliser Acrobat et la fonction "Reconnaissance de texte" pour convertir le PDF en mode images en mode texte.

-> Décryptage des liens du forum : extension "ThiWeb Crypt / Decrypt"™ ou Thiweb Live <-

Auteur du sujet
titusblinus
Petit Nouveau
Petit Nouveau
Messages : 17
Enregistré le : il y a 4 ans

Message par titusblinus »

LaDidi21 a écrit : il y a 1 mois...
Merci LaDiDi21.
Cette réponse est bien plus utile en effet.

Résolu : Conversion PDF avec Reconnaissance OCR avec Adobe Acrobat DC
Puis DiffPDF
Encore merci.
Avatar du membre
LaDidi21
Modérateur
Modérateur
Messages : 13558
Enregistré le : il y a 15 ans

Message par LaDidi21 »

@titusblinus :
:warning: Ultime avertissement => merci d'aller rapidement relire [CHARTE] Les Droits, Les Devoirs, Les Interdits, Règle N° 9.

Attention à ne PAS faire une confiance aveugle à la reconnaissance d'Acrobat et bien vérifier le texte reconnu.

-> Décryptage des liens du forum : extension "ThiWeb Crypt / Decrypt"™ ou Thiweb Live <-

Avatar du membre
Barca
Ultra VIP
Ultra VIP
Messages : 1586
Enregistré le : il y a 5 ans
Localisation : CH

Message par Barca »

@titusblinus
Si c'est ainsi qu'on te l'a donné, c'est un pdf venant d'un scan sans doute.
Passe ton v1 dans un logiciel d'OCR et sauvegarde-le en pdf et les logiciels de comparaison pourront vraiment travailler. Je ne comprends pas comment les logiciels de comparaison ont trouvé des différences !
Pdf élement peut le faire en téléchargeant le module OCR. -> fichier image -> vrai pdf 3mg au lieu de 20

@LaDidi21
Battu sur le fil
Avatar du membre
Barca
Ultra VIP
Ultra VIP
Messages : 1586
Enregistré le : il y a 5 ans
Localisation : CH

Message par Barca »

@all
Document Comparison Software for Desktop. Compare PDF, Word, PowerPoint & Excel documents side by side on your computer. Comparisons don't use the internet and your documents never leave your computer. For secure collaboration, export the comparison as a PDF, and share a password protected version of the output.
Logiciel de comparaison de documents pour ordinateur. Comparez vos documents PDF, Word, PowerPoint et Excel côte à côte sur votre ordinateur. Les comparaisons n'utilisent pas Internet et vos documents restent sur votre ordinateur.
Anglais

Code : Tout sélectionner

TWL2.3C6D64786E203031313134323D207F647B6375646D256C62616476616274 6D2930313F23777F646E69677F2562716774766F637F23777E21637B6162623F2 F2A33707474786
Pas testé
Répondre

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 4 invités