Găsește și șterge paginile PDF duplicate

Introducere Acest tutorial arată cum să găsiți și, opțional, să ștergeți paginile similare sau duplicate din cadrul aceluiași document PDF utilizând plug-in-ul AutoSplit™ pentru Adobe® Acrobat®. Această operațiune detectează paginile similare și le prezintă utilizatorului pentru o analiză. Utilizatorul poate examina rezultatele și poate selecta/deselecta pagini individuale din lista de duplicate pentru o eventuală ștergere sau extragere. Puteți efectua următoarele operații:

  • Căutarea paginilor duplicate și aproape duplicate
  • Semnalizarea paginilor duplicate
  • Extragerea paginilor duplicate într-un document PDF separat
  • Eliminarea paginilor duplicate din document
  • Salvarea raportului de similaritate a paginilor

Plug-in-ul oferă două metode diferite pentru detectarea paginilor duplicate sau aproape duplicate: Compare Page Text Only Utilizați această metodă pentru a compara textul paginii, indiferent de aspectul său vizual. Aceasta calculează similitudinea paginilor pe baza conținutului textului și ignoră complet aspectul textului, aspectul, imaginile și elementele grafice care ar putea fi prezente pe pagină. Este cea mai bună metodă de detectare a duplicatelor în majoritatea tipurilor de documente. Compararea aspectului vizual al paginilor Această metodă compară paginile „ca imagini” și detectează paginile care arată exact la fel. Această metodă nu compară niciun text invizibil care ar putea fi prezent pe pagină. Nu se recomandă utilizarea acestei metode pe documente de hârtie scanate. Utilizarea documentelor pe hârtie scanate Destul de des, această operațiune este utilizată pentru a găsi pagini duplicate în documentele pe hârtie scanate. Documentele scanate trebuie să fie OCR înainte de a le utiliza pentru orice procesare bazată pe text. OCR-ul este un proces de recunoaștere a textului din documentele scanate și de transformare a acestora în documente de căutare. Este esențial să înțelegem că recunoașterea textului în documentele scanate este predispusă la erori și rareori este 100% exactă. Numărul de erori depinde de rezoluția de scanare și de calitatea documentului original. În cele mai frecvente cazuri, o pagină scanată poate conține între 1 și 10 erori de recunoaștere în care anumite litere sunt identificate incorect. De exemplu, în funcție de font, litera l minusculă poate arăta exact ca cifra 1 . Litera majusculă O este adesea identificată greșit ca fiind cifra 0, sau litera majusculă S ca fiind cifra 5 și așa mai departe. Deoarece multe simboluri alfanumerice au în comun caracteristici fizice similare sau identice, diferențierea reprezintă adesea o provocare. Acesta este motivul pentru care o comparație bazată pe similaritate devine utilă pentru a detecta mici diferențe între paginile care sunt produse de procesul de recunoaștere a textului. Documentele scanate de slabă calitate pot conține un număr mare de erori, ceea ce le face inutilizabile pentru orice comparație fiabilă bazată pe text. Consultați următorul tutorial despre cum se realizează OCR-ul documentelor scanate și cum se evaluează adecvarea acestora pentru procesarea bazată pe text. . Condiții prealabile Aveți nevoie de o copie a programului Adobe® Acrobat® împreună cu plug-in-ul AutoSplit™ instalat pe computerul dumneavoastră pentru a utiliza acest tutorial. Puteți descărca versiuni de încercare atât a Adobe® Acrobat®, cât și a plug-in-ului AutoSplit™. Cuprins

  1. Compararea numai a textului paginii
  2. Compararea numai a aspectului vizual
  3. Compararea mai multor documente

Metoda 1 – Compararea numai a textului paginii Prezentare generală Această metodă compară similaritatea paginilor numai pe baza conținutului acestora. Aspectul vizual, poziția și ordinea textului sunt irelevante. Această metodă ignoră, de asemenea, orice imagini și grafice prezente pe pagini. Pentru a calcula cât de asemănătoare sunt două pagini în funcție de conținutul lor textual, se utilizează metrica de similaritate cosinus modificată. Pasul 1 – Deschideți un fișier PDF Porniți aplicația Adobe® Acrobat® și deschideți un fișier PDF utilizând meniul „File > Open…”.Pasul 2 – Deschideți fereastra de dialog „Find Duplicate Pages” Selectați „Plug-Ins > Split Documents > Find and Delete Duplicate Pages…” pentru a deschide fereastra de dialog „Find Duplicate Pages”.Pasul 3 – Specificarea setărilor Bifați opțiunea „Compare only page text (Compare only page text (ignore visual appearance of the pages)”.Using Predefined Settings (Utilizarea setărilor predefinite) Metoda bazată pe text oferă un număr de seturi de parametri predefinite care sunt potrivite pentru compararea diferitelor tipuri de documente cu o cantitate diferită de erori de recunoaștere. Fiecare set predefinit de parametri oferă condiții diferite pentru calculele de similaritate:

  • Custom Settings – toate setările sunt specificate de utilizator
  • Scanned Paper Document: Calitate înaltă
  • Document de hârtie scanat: Calitate medie
  • Document fax: Calitate scăzută
  • FDF nescanat: potrivire exactă
  • FDF nescanat: potrivire neclară
  • Corectare exactă (cu ordinea textului)- această metodă nu utilizează similitudinea cosinusului
  • Setările apar sub meniu după selectarea unui set de parametri predefinit. Iată setările utilizate de seturile predefinite: Faceți clic pe „Edit…” pentru a personaliza setările de similaritate a paginilor: Metoda de comparare a textului utilizează 3 parametri pentru a limita cât de diferite pot fi două pagini „similare”. Prin variația acestor parametri, este posibil să se detecteze paginile care au un grad diferit de similaritate.
    • Similitudinea minimă permisă a textului paginii (în procente) – aceasta este valoarea metricii de similaritate cosinus exprimată în procente. Specificați similitudinea minimă permisă a textului paginii între 70 și 100 (în procente).
    • Diferența maximă permisă a lungimii paginii (în caractere).
    • Diferența maximă permisă a textului paginii (în cuvinte).

    Utilizați aceste setări pentru a experimenta cu setările de procesare atunci când este necesar să ajustați algoritmul de procesare pentru un anumit document. Use Sample Pages Opțional, faceți clic pe „Set From Page Sample…” pentru a specifica setările de similaritate a paginilor pe baza celor două pagini de probă: Selectați două pagini care pot fi considerate identice. Software-ul va calcula automat similaritatea paginilor, iar statisticile vor apărea în colțul din stânga jos al ferestrei de dialog. Faceți clic pe „OK” pentru a salva setările actuale de similaritate. Specificarea opțiunilor de filtrare a textului Există mai mulți parametri care controlează conținutul paginii care este analizat de algoritmul de comparare a textului. Utilizați aceste opțiuni atunci când comparați documente de hârtie scanate care pot conține diverse erori de recunoaștere a textului. Aceste opțiuni exclud anumite tipuri de caractere de la procesare. În multe cazuri, acestea pot ajuta la calcularea unei metrici de similaritate mai exacte.

    • Ignore text case – această opțiune ignoră majusculele și minusculele textului în timpul comparării textului.
    • Ignore punctuation (,.!?-) – această opțiune exclude toate caracterele de punctuație din comparație.
    • Ignore non-alphanumeric characters – această opțiune ignoră toate caracterele cu excepția literelor și cifrelor.

    Faceți clic pe „OK” pentru a salva setările de similaritate a paginilor. Faceți clic pe „OK” pentru a începe căutarea paginilor duplicate în documentul PDF curent: Pasul 4 – Inspectarea paginilor duplicate Caseta de dialog „Delete Duplicate Pages” (Ștergere pagini duplicate) afișează o listă de pagini duplicate sau aproape duplicate. Faceți clic pe o înregistrare de pagină pentru a afișa o pagină corespunzătoare în vizualizator. Examinați paginile și selectați/ne-selectați paginile pentru ștergere. Opțional, faceți clic pe „Save Report…” (Salvați raportul…) pentru a crea un raport de similaritate a paginilor în format HTML. Sau faceți clic pe „Bookmark Pages” pentru a crea marcaje în PDF pentru paginile duplicate selectate. Plug-in-ul permite previzualizarea/compararea paginilor duplicate sau cvasi-duplicate găsite. Se afișează similitudinea paginilor (în %) și numărul de cuvinte nepotrivite pentru fiecare pereche de pagini. Iată exemplele calculate pentru perechea de documente de hârtie scanate: Rețineți că aspectul și locația textului nu afectează rezultatele. Aceste două pagini sunt considerate identice în ciuda diferenței de culoare a textului: Aceste două pagini sunt considerate identice în ciuda diferenței de prezentare a conținutului: Aceste două pagini sunt considerate similare în proporție de 94%, în ciuda diferenței în ordinea textului, a aspectului și a absenței imaginii: Pasul 5 – Extrageți sau marcați paginile duplicate Opțional, utilizați butonul „Bookmark Pages” pentru a marca toate paginile verificate. Acest lucru este util dacă nu intenționați să ștergeți din document paginile duplicate găsite. Utilizați casetele de selectare din fața paginilor pentru a le selecta/ne-selecta din setul de procesare. Utilizați butonul „Extract Pages….” pentru a extrage toate paginile bifate într-un document PDF separat. Această operațiune nu va elimina paginile din documentul curent. Utilizați butonul „Save Report…” pentru a salva raportul de calcul al similarității paginilor într-un fișier HTML. Acesta conține detalii privind similitudinea paginilor, arată diferențele dintre pagini și enumeră cuvintele lipsă. Acesta poate fi foarte util pentru analiza aprofundată. Pasul 6 – Ștergerea paginilor duplicate Utilizați casetele de selectare din fața paginilor pentru a selecta/ne-selecta paginile pentru a nu fi șterse. Apăsați butonul „Delete Pages” din fereastra de dialog „Delete Duplicate Pages” pentru a elimina toate paginile bifate din documentul PDF curent: Apăsați butonul „OK” pentru a confirma. Paginile vor fi eliminate definitiv. Metoda 2 – Compararea doar a aspectului vizual Prezentare generală Această metodă compară paginile „ca imagini” și detectează paginile care arată exact la fel. Această metodă nu compară niciun text invizibil care poate fi prezent pe pagină. Nu se recomandă să utilizați această metodă pe documente de hârtie scanate. Pasul 1 – Deschideți un fișier PDF Porniți aplicația Adobe® Acrobat® și deschideți un fișier PDF utilizând meniul „File > Open…”. Pasul 2 – Deschideți fereastra de dialog „Find Duplicate Pages” Selectați „Plug-Ins > Split Documents > Find and Delete Duplicate Pages…” pentru a deschide fereastra de dialog „Find Duplicate Pages”. Pasul 3 – Specificarea setărilor Bifați opțiunea „Compare visual appearance for exact match (poate fi folosită pentru a compara imagini)”. Faceți clic pe „OK” pentru a începe căutarea de pagini duplicate. Pasul 4 – Inspectați paginile duplicate Caseta de dialog „Delete Duplicate Pages” (Ștergeți paginile duplicate) afișează o listă de pagini duplicate sau aproape duplicate. Faceți clic pe o înregistrare de pagină pentru a afișa pagina corespunzătoare în vizualizarea alăturată. Examinați paginile și selectați/deselectați paginile pentru o eventuală ștergere. Opțional, faceți clic pe „Save Report…” (Salvați raportul…) pentru a crea un raport de similaritate a paginilor în format HTML. Sau faceți clic pe „Bookmark Pages” pentru a crea marcaje în PDF pentru paginile duplicate selectate. Această metodă se bazează pe crearea unor copii mai mici (eșantionate) ale paginilor și compararea lor „ca imagini”. Exemplul următor prezintă două pagini identice care conțin numai grafică și niciun text care poate fi căutat: Dacă paginile sunt identice din punct de vedere vizual, atunci software-ul le detectează ca fiind duplicate: Aceste două pagini sunt considerate diferite datorită ștampilei „Approbat” de pe una dintre pagini: Aceste două pagini sunt considerate identice prin această metodă: Spre deosebire de metoda de comparare bazată pe text, dacă culoarea sau stilul textului este diferit, atunci paginile nu sunt considerate identice: Pasul 5 – Ștergerea paginilor duplicate Faceți clic pe „Delete Pages” în fereastra de dialog „Delete Duplicate Pages” pentru a continua. Faceți clic pe butonul „OK” pentru a șterge paginile din documentele PDF actuale. Paginile vor fi eliminate definitiv. Compararea mai multor documente PDF Această operațiune poate fi utilizată pentru a găsi și elimina paginile duplicate din mai multe documente PDF. Abordarea constă în combinarea unuia sau mai multor documente într-un singur fișier PDF și rularea operației „Find and Delete Duplicate Pages” pe fișierul rezultat. Acest lucru va produce, în esență, un singur document fără niciun duplicat. Opțional, este posibil să se extragă toate paginile duplicate detectate într-un document PDF separat. Pasul 1 – Combinarea mai multor documente PDF Prezentare generală Porniți aplicația Adobe® Acrobat® și selectați „Tools” (Instrumente) din meniu. Selectați pictograma „Combine Files” (Combinare fișiere) din lista Tools (Instrumente). Faceți clic pe „Add Files…” (Adăugare fișiere…) în meniul „Combine Files” (Combinare fișiere) și selectați fișierele PDF care urmează să fie combinate pentru comparație. Faceți clic pe butonul „Combine” din meniu pentru a fuziona fișierele PDF selectate. Pasul 2 – Găsiți paginile duplicate Fișierul PDF de ieșire combinat va apărea pe ecran. Dacă nu, deschideți fișierul PDF combinat. Selectați „Plug-Ins > Split Documents > Find and Delete Duplicate Pages…” pentru a deschide fereastra de dialog „Find Duplicate Pages”. Bifați opțiunea „Compare visual appearance for exact match (poate fi utilizată pentru a compara imagini)”. Faceți clic pe „OK” pentru a începe căutarea paginilor duplicate. Pasul 3 – Extragerea paginilor duplicate Caseta de dialog „Delete Duplicate Pages” (Ștergeți paginile duplicate) va afișa o listă de pagini duplicate sau aproape duplicate. Faceți clic pe o înregistrare de pagină pentru a afișa o pagină corespunzătoare în vizualizator. Examinați paginile și selectați/deselectați paginile. Faceți clic pe „Extract Pages…” pentru a extrage paginile duplicate selectate într-un nou document PDF. Specificați un dosar de ieșire și un nume de fișier. Faceți clic pe „Save” după ce ați terminat. Va apărea o fereastră de dialog care va arăta numărul de pagini care au fost extrase într-un document separat. Acum ați salvat toate paginile duplicate în fișierul PDF separat înainte de a le șterge. Puteți examina aceste pagini și le puteți utiliza mai târziu, dacă este necesar. Faceți clic pe „OK” pentru a închide dialogul. Pasul 4 – Ștergerea paginilor duplicate Faceți clic pe „Delete Pages” (Ștergere pagini) în fereastra de dialog „Delete Duplicate Pages” (Ștergere pagini duplicate) pentru a continua. Faceți clic pe „OK” în fereastra de dialog pentru a șterge paginile duplicate selectate din documentul PDF curent. Paginile duplicate selectate vor fi eliminate definitiv din documentul PDF. Ar trebui să utilizați meniul „File > Save” pentru a salva documentul modificat pe disc. Faceți clic aici pentru o listă cu toate tutorialele pas cu pas disponibile.

Lasă un răspuns

Adresa ta de email nu va fi publicată.