Inleiding In deze zelfstudie wordt uitgelegd hoe u met behulp van de AutoSplit™-plugin voor Adobe® Acrobat® gelijksoortige of dubbele pagina’s in hetzelfde PDF-document kunt vinden en desgewenst verwijderen. Deze bewerking detecteert gelijksoortige pagina’s en presenteert ze aan de gebruiker voor een beoordeling. De gebruiker kan de resultaten bekijken en afzonderlijke pagina’s uit de lijst met duplicaten selecteren/deselecteren voor een mogelijke verwijdering of extractie. U kunt de volgende bewerkingen uitvoeren:
- Duplicate en bijna-duplicate pagina’s vinden
- Duplicate pagina’s markeren
- Duplicate pagina’s extraheren in een afzonderlijk PDF-document
- Duplicate pagina’s uit het document verwijderen
- Paginaovereenkomstrapport opslaan
De plug-in biedt twee verschillende methoden voor het detecteren van duplicate of bijna-duplicate pagina’s: Alleen paginatekst vergelijken Gebruik deze methode om paginatekst te vergelijken, ongeacht het visuele uiterlijk. Deze methode berekent de gelijkenis van de pagina’s alleen op basis van de tekstinhoud en negeert het uiterlijk van de tekst, de opmaak, afbeeldingen en grafische elementen die eventueel op de pagina aanwezig zijn. Het is de beste methode om duplicaten te detecteren in de meeste documenttypes. Vergelijk visuele verschijning van de pagina’s Deze methode vergelijkt pagina’s “als afbeeldingen” en detecteert pagina’s die er precies hetzelfde uitzien. Deze methode vergelijkt geen onzichtbare tekst die op de pagina aanwezig kan zijn. Het wordt afgeraden deze methode te gebruiken voor gescande papieren documenten. Gebruik van gescande papieren documenten Heel vaak wordt deze bewerking gebruikt om dubbele pagina’s in de gescande papieren documenten te vinden. De gescande documenten moeten OCR-gebaseerd worden voordat ze voor tekstverwerking kunnen worden gebruikt. OCR is een proces om tekst in gescande documenten te herkennen en ze doorzoekbaar te maken. Het is van essentieel belang te begrijpen dat tekstherkenning in gescande documenten vatbaar is voor fouten en zelden 100% accuraat is. Het aantal fouten is afhankelijk van de scanresolutie en de kwaliteit van het originele document. In de meest voorkomende gevallen kan een gescande pagina tussen 1 en 10 herkenningsfouten bevatten waarbij bepaalde letters onjuist worden geïdentificeerd. Zo kan, afhankelijk van het lettertype, de kleine letter l er precies zo uitzien als het cijfer 1 . De hoofdletter O wordt vaak verkeerd geïdentificeerd als het cijfer 0, of de hoofdletter S als het cijfer 5, enz. Aangezien veel alfanumerieke symbolen vergelijkbare of identieke fysieke kenmerken hebben, is het vaak een uitdaging om ze van elkaar te onderscheiden. Daarom is een vergelijking op basis van gelijkenis nuttig om kleine verschillen tussen pagina’s op te sporen die door het tekstherkenningsproces zijn ontstaan. Gescande documenten van lage kwaliteit kunnen een groot aantal fouten bevatten, waardoor ze onbruikbaar worden voor een betrouwbare tekstvergelijking. Zie de volgende tutorial over hoe gescande documenten te OCR-en en te beoordelen op hun geschiktheid voor de tekstgebaseerde verwerking. . Vereisten U moet een exemplaar van Adobe® Acrobat® samen met de AutoSplit™ plug-in op uw computer geïnstalleerd hebben om deze handleiding te kunnen gebruiken. U kunt proefversies downloaden van zowel Adobe® Acrobat® als de AutoSplit™ plug-in. Inhoud
- Alleen paginatekst vergelijken
- Alleen visuele verschijning vergelijken
- Meerdere documenten vergelijken
Methode 1 – Alleen paginatekst vergelijken overzicht Bij deze methode worden gelijkenissen tussen pagina’s alleen vergeleken op basis van hun pagina-inhoud. Het visuele uiterlijk, de positie en volgorde van de tekst zijn niet van belang. Deze methode houdt ook geen rekening met eventuele afbeeldingen en grafieken op de pagina’s. De aangepaste cosinusmethode wordt gebruikt om de gelijkenis tussen twee pagina’s te berekenen op basis van hun tekstinhoud. Stap 1 – Open een PDF-bestand Start de Adobe® Acrobat®-toepassing en open een PDF-bestand met het menu “Bestand > Openen…”.Stap 2 – Open het dialoogvenster “Duplicaatpagina’s zoeken” Selecteer “Plug-Ins > Documenten splitsen > Duplicaatpagina’s zoeken en verwijderen…” om het dialoogvenster “Duplicaatpagina’s zoeken” te openen.Stap 3 – Instellingen Specificeren Vink de optie “Alleen paginatekst vergelijken (visuele weergave van de pagina’s negeren)” aan.Voorgedefinieerde instellingen gebruiken De op tekst gebaseerde methode biedt een aantal voorgedefinieerde parametersets die geschikt zijn voor het vergelijken van verschillende soorten documenten met een verschillend aantal herkenningsfouten. Elke voorgedefinieerde set parameters biedt verschillende voorwaarden voor de berekening van de gelijkenis:
- Aangepaste instellingen – alle instellingen worden door de gebruiker gespecificeerd
- Gescand papieren document: Hoge kwaliteit
- Gescand papier document: Medium kwaliteit
- Faxdocument: Lage kwaliteit
- Niet gescande PDF: exacte overeenkomst
- Niet gescande PDF: fuzzy overeenkomst
- Exacte overeenkomst (met tekstvolgorde)- deze methode maakt geen gebruik van cosinus gelijkenis
Instellingen verschijnen onder het menu na het selecteren van een voorgedefinieerde parameterset.Dit zijn de instellingen die door de voorgedefinieerde sets worden gebruikt:Klik op “Bewerken…” om de instellingen voor paginavergelijking aan te passen:De tekstvergelijkingsmethode gebruikt 3 parameters om te beperken hoe verschillend twee “gelijkende” pagina’s kunnen zijn. Door deze parameters te variëren, is het mogelijk om pagina’s te detecteren die een verschillende mate van gelijkenis hebben.
- Minimaal toegestane pagina tekstgelijkenis (in procenten) – dit is de waarde van de cosinus gelijkenis metriek uitgedrukt in procenten. Geef de minimaal toegestane paginatekstgelijkenis op tussen 70 en 100 (in procenten).
- Maximaal toegestane paginalengteverschil (in tekens).
- Maximaal toegestane paginatekstverschil (in woorden).
Gebruik deze instellingen om te experimenteren met verwerkingsinstellingen wanneer het nodig is om het verwerkingsalgoritme voor een specifiek document aan te passen.Gebruik voorbeeldpagina’s Klik optioneel op “Instellen vanaf paginastaal…” om de instellingen voor paginaovereenkomst te specificeren op basis van de twee voorbeeldpagina’s:Selecteer twee pagina’s die als identiek kunnen worden beschouwd. De software berekent automatisch de paginagelijkenis en de statistieken verschijnen in de linker benedenhoek van het dialoogvenster. Klik op “OK” om de huidige gelijkenis instellingen op te slaan.Geef opties voor tekstfiltering op Er zijn verschillende parameters die de pagina-inhoud bepalen die wordt geanalyseerd door het tekstvergelijkingsalgoritme. Gebruik deze opties bij het vergelijken van gescande papieren documenten die verschillende tekstherkenningsfouten kunnen bevatten. Deze opties sluiten bepaalde soorten tekens uit van verwerking. In veel gevallen kan dit helpen bij het berekenen van een nauwkeurigere gelijkenis metriek.
- Hoofdletters negeren – deze optie negeert hoofdletters bij het vergelijken van tekst.
- Tekens negeren (,.!?-) – deze optie sluit alle leestekens uit van vergelijking.
- Niet-alfanumerieke tekens negeren – deze optie negeert alle tekens behalve letters en cijfers.
Klik op “OK” om de instellingen voor de paginasoortgelijkheid op te slaan.Klik op “OK” om het huidige PDF document te doorzoeken naar de dubbele pagina’s:Stap 4 – Duplicaatpagina’s controleren Het dialoogvenster “Duplicaatpagina’s verwijderen” toont een lijst met dubbele of bijna-duplicaatpagina’s. Klik op een pagina record om de corresponderende pagina in de viewer te tonen. Bestudeer de pagina’s en selecteer of de-selecteer de pagina’s om te verwijderen. Klik optioneel op “Save Report…” om een paginasoortgelijkheidsrapport in HTML-formaat te maken. Of klik op “Bookmark Pages” om bladwijzers in PDF te maken voor geselecteerde dubbele pagina’s.De plug-in maakt het mogelijk om de gevonden dubbele of bijna-duplicate pagina’s te bekijken/vergelijken. De pagina gelijkenis (in %) en het aantal niet overeenkomende woorden wordt weergegeven voor elk paar pagina’s. Hier zijn de voorbeelden die zijn berekend voor het paar van de gescande papieren documenten:Merk op dat het uiterlijk en de plaats van de tekst geen invloed hebben op de resultaten. Deze twee pagina’s worden als identiek beschouwd ondanks het verschil in de tekstkleur:Deze twee pagina’s worden als identiek beschouwd ondanks het verschil in de opmaak van de inhoud:
Deze twee pagina’s worden voor 94% als identiek beschouwd ondanks het verschil in de volgorde van de tekst, de opmaak en de afwezigheid van de afbeelding:Stap 5 – Duplicaten uitpakken of bladwijzer maken Optioneel kunt u de knop “Bladwijzer maken van pagina’s” gebruiken om een bladwijzer te maken van alle gecontroleerde pagina’s. Dit is handig als u niet van plan bent om de gevonden dubbele pagina’s uit het document te verwijderen. Gebruik de selectievakjes voor de pagina’s om ze te selecteren/deselecteren uit de verwerkingsset. Gebruik de knop “Pagina’s uitpakken….” om alle gecontroleerde pagina’s in een afzonderlijk PDF-document uit te pakken. Deze handeling verwijdert geen pagina’s uit het huidige document.Gebruik de knop “Save Report…” om het rapport van de berekening van de paginagelijkenis op te slaan in een HTML-bestand. Het bevat details over de paginagelijkenis, toont verschillen tussen pagina’s en geeft een lijst van ontbrekende woorden. Het kan zeer nuttig zijn voor een grondige analyse.Stap 6 – Verwijder dubbele pagina’s Gebruik checkboxes voor de pagina’s om pagina’s te selecteren/deselecteren van verwijdering. Druk op de “Verwijder Pagina’s” knop in het “Verwijder Duplicaat Pagina’s” dialoogvenster om alle aangevinkte pagina’s uit het huidige PDF document te verwijderen:Klik op “OK” om te bevestigen. Pagina’s zullen permanent worden verwijderd.Methode 2 – Alleen visueel overzicht vergelijken Deze methode vergelijkt pagina’s “als afbeeldingen” en detecteert pagina’s die er precies hetzelfde uitzien. Deze methode vergelijkt geen onzichtbare tekst die op de pagina aanwezig kan zijn. Het wordt afgeraden deze methode te gebruiken voor gescande papieren documenten. Stap 1 – Open een PDF-bestand Start de Adobe® Acrobat®-toepassing en open een PDF-bestand via het menu “Bestand > Openen…”.Stap 2 – Open het dialoogvenster “Duplicaatpagina’s zoeken” Selecteer “Plug-Ins > Documenten splitsen > Duplicaatpagina’s zoeken en verwijderen…” om het dialoogvenster “Duplicaatpagina’s zoeken” te openen.Stap 3 – Instellingen Specificeren Vink de optie “Vergelijk visuele verschijning voor exacte overeenkomst (kan worden gebruikt om afbeeldingen te vergelijken)” aan.Klik op “OK” om te beginnen met het zoeken naar dubbele pagina’s. Stap 4 – Duplicaatpagina’s controleren Het dialoogvenster “Duplicaatpagina’s verwijderen” toont een lijst van dubbele of bijna-duplicaatpagina’s. Klik op een pagina record om de corresponderende pagina in de zij-aan-zij weergave te tonen. Bestudeer de pagina’s en selecteer/deselecteer pagina’s voor een mogelijke verwijdering.
Klik optioneel op “Rapport opslaan…” om een paginagelijkheidsrapport in HTML-formaat te maken. Of klik op “Bladwijzers voor pagina’s” om bladwijzers in PDF te maken voor geselecteerde dubbele pagina’s. Deze methode is gebaseerd op het maken van kleinere (bemonsterde) kopieën van de pagina’s en deze “als afbeeldingen” te vergelijken. Het volgende voorbeeld toont twee identieke pagina’s die alleen afbeeldingen bevatten en geen doorzoekbare tekst:Als pagina’s visueel identiek zijn, dan detecteert de software ze als duplicaten:Deze twee pagina’s worden als verschillend beschouwd vanwege de “Goedgekeurd”-stempel op een van de pagina’s:Deze twee pagina’s worden door deze methode als identiek beschouwd:In tegenstelling tot de vergelijkingsmethode op basis van tekst, worden de pagina’s niet als identiek beschouwd als de kleur of de stijl van de tekst verschillend is:Stap 5 – Duplicaatpagina’s verwijderen Klik op “Pagina’s verwijderen” in het dialoogvenster “Duplicaatpagina’s verwijderen” om verder te gaan. Klik op de knop “OK” om pagina’s uit de huidige PDF-documenten te verwijderen. Pagina’s zullen permanent worden verwijderd.Meerdere PDF-documenten vergelijken Deze bewerking kan worden gebruikt om dubbele pagina’s te vinden en te verwijderen uit de meerdere PDF-documenten. De aanpak is om een of meer documenten samen te voegen tot een enkel PDF-bestand en de bewerking “Duplicaten zoeken en verwijderen” uit te voeren op het resulterende bestand. Dit zal in wezen één enkel document zonder duplicaten opleveren. Optioneel is het mogelijk om alle gedetecteerde dubbele pagina’s in een afzonderlijk PDF-document te extraheren. Stap 1 – Overzicht Meerdere PDF-documenten samenvoegen Start de Adobe® Acrobat®-toepassing en selecteer “Extra” in het menu. Selecteer het pictogram “Bestanden combineren” in de lijst Extra.Klik op “Bestanden toevoegen…” in het menu “Bestanden samenvoegen” en selecteer PDF-bestanden die u ter vergelijking wilt samenvoegen.Klik op de knop “Combineren” in het menu om de geselecteerde PDF-bestanden samen te voegen.Stap 2 – Duplicaatpagina’s zoeken Het gecombineerde PDF-uitvoerbestand zou op het scherm moeten verschijnen. Zo niet, opent u het gecombineerde PDF-bestand. Selecteer “Plug-Ins > Documenten splitsen > Duplicaten zoeken en verwijderen…” om het dialoogvenster “Duplicaten zoeken” te openen.Vink de optie “Vergelijk visuele verschijning voor exacte overeenkomst (kan worden gebruikt om afbeeldingen te vergelijken)” aan. Klik op “OK” om te beginnen met zoeken naar dubbele pagina’s.Stap 3 – Duplicaatpagina’s verwijderen Het dialoogvenster “Duplicaatpagina’s verwijderen” toont een lijst van dubbele of bijna-duplicaatpagina’s. Klik op een pagina record om een overeenkomstige pagina in de viewer te tonen. Bestudeer pagina’s en selecteer/deselecteer pagina’s. Klik op “Pagina’s extraheren…” om de geselecteerde dubbele pagina’s in een nieuw PDF-document te extraheren.Specificeer een uitvoermap en een bestandsnaam. Klik op “Opslaan” zodra u klaar bent.Het dialoogvenster verschijnt met het aantal pagina’s dat in een afzonderlijk document is uitgesorteerd. Nu hebt u alle dubbele pagina’s in het afzonderlijke PDF-bestand opgeslagen voordat u ze verwijdert. U kunt deze pagina’s onderzoeken en later gebruiken indien nodig. Klik op “OK” om het dialoogvenster te sluiten.Stap 4 – Duplicaatpagina’s verwijderen Klik op “Delete Pages” in het dialoogvenster “Duplicaatpagina’s verwijderen” om verder te gaan.Klik op “OK” in het dialoogvenster om de geselecteerde dubbele pagina’s uit het huidige PDF-document te verwijderen.De geselecteerde dubbele pagina’s worden permanent uit het PDF-document verwijderd. U moet het menu “Bestand > Opslaan” gebruiken om het gewijzigde document op schijf op te slaan. Klik hier voor een lijst van alle beschikbare stap-voor-stap handleidingen.