Trovare ed eliminare pagine PDF duplicate

Introduzione Questo tutorial mostra come trovare ed eventualmente eliminare pagine simili o duplicate all’interno dello stesso documento PDF usando il plug-in AutoSplit™ per Adobe® Acrobat®. Questa operazione rileva le pagine simili e le presenta all’utente per una revisione. L’utente può rivedere i risultati e selezionare/deselezionare le singole pagine dalla lista dei duplicati per una possibile eliminazione o estrazione. È possibile eseguire le seguenti operazioni:

  • Trova le pagine duplicate e quasi duplicate
  • Segnala le pagine duplicate
  • Estrai le pagine duplicate in un documento PDF separato
  • Elimina le pagine duplicate dal documento
  • Salva il rapporto di somiglianza delle pagine

Il plug-in fornisce due diversi metodi per rilevare le pagine duplicate o quasi duplicate: Confronta solo il testo della pagina Usa questo metodo per confrontare il testo della pagina indipendentemente dal suo aspetto visivo. Calcola la somiglianza della pagina basandosi solo sul contenuto del testo e ignora completamente l’aspetto del testo, il layout, le immagini e la grafica che potrebbero essere presenti nella pagina. È il metodo migliore per rilevare i duplicati nella maggior parte dei tipi di documento. Confronta l’aspetto visivo delle pagine Questo metodo confronta le pagine “come immagini” e rileva le pagine che sembrano esattamente uguali. Questo metodo non confronta il testo invisibile che può essere presente nella pagina. Non è consigliabile usare questo metodo su documenti cartacei scannerizzati. Utilizzo di documenti cartacei scannerizzati Molto spesso questa operazione viene utilizzata per trovare le pagine duplicate nei documenti cartacei scannerizzati. I documenti scansionati devono essere OCR prima di usarli per qualsiasi elaborazione basata sul testo. L’OCR è un processo che riconosce il testo nei documenti scansionati e li rende ricercabili. È essenziale capire che il riconoscimento del testo nei documenti scansionati è soggetto a errori e raramente è accurato al 100%. Il numero di errori dipende dalla risoluzione di scansione e dalla qualità del documento originale. Nei casi più comuni, una pagina scansionata può contenere da 1 a 10 errori di riconoscimento in cui alcune lettere sono identificate in modo errato. Per esempio, a seconda del font, la lettera minuscola l può apparire esattamente come il numero 1 . La lettera maiuscola O viene spesso identificata erroneamente come il numero 0, o la lettera maiuscola S come il numero 5 e così via. Poiché molti simboli alfanumerici condividono caratteristiche fisiche simili, o identiche, la differenziazione rappresenta spesso una sfida. Questo è il motivo per cui un confronto basato sulla somiglianza diventa utile per rilevare piccole differenze tra le pagine che sono prodotte dal processo di riconoscimento del testo. I documenti scannerizzati di bassa qualità possono contenere un gran numero di errori che li rendono inutilizzabili per qualsiasi confronto basato sul testo affidabile. Vedi il seguente tutorial su come OCR i documenti scansionati e valutare la loro idoneità per l’elaborazione basata sul testo. . Prerequisiti Per utilizzare questo tutorial è necessario avere una copia di Adobe® Acrobat® insieme al plug-in AutoSplit™ installato sul proprio computer. Puoi scaricare versioni di prova sia di Adobe® Acrobat® che del plug-in AutoSplit™. Contenuti

  1. Confrontare solo il testo della pagina
  2. Confrontare solo l’aspetto visivo
  3. Confrontare documenti multipli

Metodo 1 – Confrontare solo il testo della pagina Panoramica Questo metodo confronta la somiglianza delle pagine solo in base al loro contenuto. L’aspetto visivo, la posizione e l’ordine del testo sono irrilevanti. Questo metodo ignora anche eventuali immagini e grafici presenti nelle pagine. La metrica di somiglianza coseno modificata viene usata per calcolare quanto sono simili due pagine in base al loro contenuto testuale. Passo 1 – Aprire un file PDF Avviare l’applicazione Adobe® Acrobat® e aprire un file PDF utilizzando il menu “File > Apri…”.Passo 2 – Aprire la finestra di dialogo “Find Duplicate Pages” Seleziona “Plug-Ins > Split Documents > Find and Delete Duplicate Pages…” per aprire la finestra di dialogo “Find Duplicate Pages”.Passo 3 – Specificare le impostazioni Seleziona l’opzione “Confronta solo il testo della pagina (ignora l’aspetto visivo delle pagine)”.Utilizzo delle impostazioni predefinite Il metodo basato sul testo fornisce una serie di set di parametri predefiniti che sono adatti a confrontare diversi tipi di documenti con una diversa quantità di errori di riconoscimento. Ogni set di parametri predefiniti fornisce diverse condizioni per i calcoli di somiglianza:

  • Impostazioni personalizzate – tutte le impostazioni sono specificate dall’utente
  • Documento cartaceo digitalizzato: Alta qualità
  • Documento su carta digitalizzata: Qualità media
  • Documento fax: Bassa qualità
  • PDF non scannerizzato: corrispondenza esatta
  • PDF non scannerizzato: corrispondenza fuzzy
  • Corrispondenza esatta (con ordine del testo)- questo metodo non usa la similarità coseno

Le impostazioni appaiono sotto il menu dopo aver selezionato un set di parametri predefinito.Ecco le impostazioni utilizzate dai set predefiniti:Clicca su “Modifica…” per personalizzare le impostazioni di somiglianza della pagina:Il metodo di confronto del testo usa 3 parametri per limitare quanto diverse possano essere due pagine “simili”. Variando questi parametri, è possibile rilevare le pagine che hanno un diverso grado di somiglianza.

  • Similitudine minima consentita del testo della pagina (in percentuale) – questo è il valore della metrica di similarità del coseno espresso in percentuale. Specifica la somiglianza minima consentita del testo della pagina tra 70 e 100 (in percentuale).
  • Differenza massima consentita della lunghezza della pagina (in caratteri).
  • Differenza massima consentita del testo della pagina (in parole).

Usa queste impostazioni per sperimentare le impostazioni di elaborazione quando è necessario regolare l’algoritmo di elaborazione per un documento specifico.Usa pagine campione Facoltativamente, fare clic su “Imposta da pagina campione…” per specificare le impostazioni di somiglianza della pagina basate su due pagine campione:Seleziona due pagine che possono essere considerate identiche. Il software calcolerà automaticamente la somiglianza delle pagine e le statistiche appariranno nell’angolo inferiore sinistro della finestra di dialogo. Fai clic su “OK” per salvare le impostazioni di somiglianza correnti.Specificare le opzioni di filtraggio del testo Ci sono diversi parametri che controllano il contenuto della pagina che viene analizzato dall’algoritmo di confronto del testo. Utilizzare queste opzioni quando si confrontano documenti cartacei digitalizzati che possono contenere vari errori di riconoscimento del testo. Queste opzioni escludono alcuni tipi di caratteri dall’elaborazione. In molti casi, possono aiutare a calcolare una metrica di somiglianza più accurata.

  • Ignora maiuscole e minuscole – questa opzione ignora le maiuscole e minuscole durante il confronto del testo.
  • Ignora punteggiatura (,.!?-) – questa opzione esclude tutti i caratteri di punteggiatura dal confronto.
  • Ignora caratteri non alfanumerici – questa opzione ignora tutti i caratteri tranne lettere e cifre.

Clicca su “OK” per salvare le impostazioni di somiglianza della pagina.Clicca su “OK” per iniziare la ricerca delle pagine duplicate nel documento PDF corrente:Passo 4 – Ispezionare le pagine duplicate La finestra di dialogo “Elimina pagine duplicate” mostra un elenco di pagine duplicate o quasi duplicate. Clicca su un record di pagina per visualizzare la pagina corrispondente nel visualizzatore. Esamina le pagine e seleziona/deseleziona le pagine da eliminare. Facoltativamente, clicca su “Salva rapporto…” per creare un rapporto di somiglianza delle pagine in formato HTML. Oppure clicca su “Bookmark Pages” per creare segnalibri in PDF per le pagine duplicate selezionate.Il plug-in permette di visualizzare in anteprima/confrontare le pagine trovate duplicate o quasi duplicate. La somiglianza delle pagine (in %) e il numero di parole non corrispondenti viene visualizzato per ogni coppia di pagine. Ecco gli esempi calcolati per la coppia di documenti cartacei scansionati:Nota che l’aspetto e la posizione del testo non influenzano i risultati. Queste due pagine sono considerate identiche nonostante la differenza nel colore del testo:

Queste due pagine sono considerate identiche nonostante la differenza nel layout del contenuto:Queste due pagine sono considerate simili al 94% nonostante la differenza nell’ordine del testo, nel layout e nell’assenza dell’immagine:Passo 5 – Estrarre o aggiungere ai preferiti le pagine duplicate Facoltativamente, usa il pulsante “Bookmark Pages” per aggiungere ai preferiti tutte le pagine controllate. Questo è utile se non hai intenzione di eliminare le pagine doppie trovate dal documento. Usa le caselle di controllo davanti alle pagine per selezionarle/deselezionarle dal set di elaborazione. Utilizzare il pulsante “Estrai pagine….” per estrarre tutte le pagine selezionate in un documento PDF separato. Questa operazione non rimuove le pagine dal documento corrente.Usa il pulsante “Salva rapporto…” per salvare il rapporto di calcolo della somiglianza delle pagine in un file HTML. Contiene i dettagli sulla somiglianza delle pagine, mostra le differenze tra le pagine ed elenca le parole mancanti. Può essere molto utile per l’analisi approfondita.Passo 6 – Elimina le pagine duplicate Usa le caselle di controllo davanti alle pagine per selezionare/deselezionare le pagine da eliminare. Premi il pulsante “Delete Pages” nella finestra di dialogo “Delete Duplicate Pages” per rimuovere tutte le pagine selezionate dal documento PDF corrente:Clicca su “OK” per confermare. Le pagine saranno rimosse in modo permanente.Metodo 2 – Confronto del solo aspetto visivo panoramica Questo metodo confronta le pagine “come immagini” e rileva le pagine che sembrano esattamente uguali. Questo metodo non confronta il testo invisibile eventualmente presente nella pagina. Non è consigliabile utilizzare questo metodo su documenti cartacei scannerizzati. Passo 1 – Aprire un file PDF Avviare l’applicazione Adobe® Acrobat® e aprire un file PDF utilizzando il menu “File > Apri…”.Passo 2 – Aprire la finestra di dialogo “Trova pagine duplicate” Seleziona “Plug-Ins > Dividi documenti > Trova ed elimina pagine duplicate…” per aprire la finestra di dialogo “Trova pagine duplicate”.Passo 3 – Specificare le impostazioni Seleziona l’opzione “Confronta l’aspetto visivo per la corrispondenza esatta (può essere usato per confrontare le immagini)”.Clicca “OK” per iniziare la ricerca delle pagine duplicate. Passo 4 – Ispezionare le pagine duplicate La finestra di dialogo “Delete Duplicate Pages” mostra un elenco di pagine duplicate o quasi duplicate. Clicca su un record di pagina per visualizzare la pagina corrispondente nella vista laterale. Esamina le pagine e seleziona/deseleziona le pagine per una possibile eliminazione.

Facoltativamente, clicca su “Salva rapporto…” per creare un rapporto di somiglianza delle pagine in formato HTML. Oppure clicca su “Bookmark Pages” per creare dei segnalibri in PDF per le pagine duplicate selezionate. Questo metodo si basa sulla creazione di copie più piccole (campionate) delle pagine e sul loro confronto “come immagini”. L’esempio seguente mostra due pagine identiche che contengono solo grafica e nessun testo ricercabile:Se le pagine sono visivamente identiche, allora il software le rileva come duplicati:Queste due pagine sono considerate diverse a causa del timbro “Approved” su una delle pagine:Queste due pagine sono considerate identiche con questo metodo:A differenza del metodo di confronto basato sul testo, se il colore o lo stile del testo è diverso, allora le pagine non sono considerate identiche:Passo 5 – Cancellare le pagine duplicate Clicca su “Cancella pagine” nella finestra di dialogo “Cancella pagine duplicate” per procedere. Clicca su “OK” per eliminare le pagine dai documenti PDF correnti. Le pagine verranno rimosse in modo permanente.Confronto di più documenti PDF Questa operazione può essere utilizzata per trovare e rimuovere le pagine duplicate da più documenti PDF. L’approccio è quello di combinare uno o più documenti in un unico file PDF ed eseguire l’operazione “Trova ed elimina pagine duplicate” sul file risultante. Questo produrrà essenzialmente un unico documento senza duplicati. Opzionalmente, è possibile estrarre tutte le pagine doppie rilevate in un documento PDF separato. Fase 1 – Combina documenti PDF multipli panoramica Avvia l’applicazione Adobe® Acrobat® e seleziona “Strumenti” dal menu. Seleziona l’icona “Combina file” dall’elenco degli strumenti.Clicca su “Aggiungi file…” nel menu “Combina file” e seleziona i file PDF da unire per il confronto.Clicca sul pulsante “Combine” nel menu per unire i file PDF selezionati.Passo 2 – Trova le pagine duplicate Il file PDF combinato in uscita dovrebbe apparire sullo schermo. In caso contrario, apri il file PDF combinato. Seleziona “Plug-Ins > Dividi documenti > Trova ed elimina le pagine duplicate…” per aprire la finestra di dialogo “Trova pagine duplicate”.Seleziona l’opzione “Confronta aspetto visivo per corrispondenza esatta (può essere usato per confrontare le immagini)”. Clicca “OK” per iniziare la ricerca delle pagine duplicate.Passo 3 – Estrarre le pagine duplicate La finestra di dialogo “Delete Duplicate Pages” mostra un elenco di pagine duplicate o quasi duplicate. Clicca su un record di pagina per visualizzare la pagina corrispondente nel visualizzatore. Esamina le pagine e seleziona/deseleziona le pagine. Clicca su “Estrai pagine…” per estrarre le pagine duplicate selezionate in un nuovo documento PDF.Specifica una cartella di output e un nome di file. Fai clic su “Salva” una volta fatto.Appare la finestra di dialogo che mostra il numero di pagine che sono state estratte in un documento separato. Ora hai salvato tutte le pagine duplicate in un file PDF separato prima di eliminarle. Puoi esaminare queste pagine e usarle in seguito, se necessario. Clicca su “OK” per chiudere la finestra di dialogo.Passo 4 – Cancellare le pagine duplicate Clicca “Delete Pages” nella finestra di dialogo “Delete Duplicate Pages” per procedere.Clicca su “OK” nella finestra di dialogo per eliminare le pagine doppie selezionate dal documento PDF corrente.Le pagine doppie selezionate verrebbero rimosse permanentemente dal documento PDF. È necessario utilizzare il menu “File > Salva” per salvare il documento modificato su disco. Clicca qui per una lista di tutti i tutorial passo-passo disponibili.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.