Duplikált és majdnem duplikált PDF-oldalak keresése és törlése

Duplikált PDF-oldalak keresése és törlése

Bevezetés Ez az útmutató bemutatja, hogyan lehet megtalálni és opcionálisan törölni a hasonló vagy duplikált oldalakat ugyanazon a PDF-dokumentumon belül az Adobe® Acrobat® AutoSplit™ plug-in segítségével. Ez a művelet felismeri a hasonló oldalakat, és bemutatja azokat a felhasználónak felülvizsgálatra. A felhasználó áttekintheti az eredményeket, és a duplikátumok listájából kiválaszthat/levonhat egyes oldalakat az esetleges törlés vagy eltávolítás céljából. A következő műveleteket végezheti el:

Duplikált és majdnem duplikált oldalak keresése
Duplikált oldalak megjelölése
Duplikált oldalak kivonása külön PDF-dokumentumba
Duplikált oldalak törlése a dokumentumból
Oldalhasonlósági jelentés mentése

A bővítmény két különböző módszert kínál a duplikált vagy majdnem duplikált oldalak felderítésére: Csak az oldalszöveg összehasonlítása Ezzel a módszerrel az oldalszöveget hasonlíthatja össze, függetlenül annak vizuális megjelenésétől. Az oldal hasonlóságát csak a szövegtartalom alapján számítja ki, és teljesen figyelmen kívül hagyja a szöveg megjelenését, az elrendezést, a képeket és az oldalon esetleg jelen lévő grafikákat. Ez a legjobb módszer a duplikációk felderítésére a legtöbb dokumentumtípusban. Az oldalak vizuális megjelenésének összehasonlítása Ez a módszer az oldalakat “képként” hasonlítja össze, és felismeri a pontosan ugyanúgy kinéző oldalakat. Ez a módszer nem hasonlítja össze az oldalon esetleg jelen lévő láthatatlan szöveget. Ezt a módszert nem ajánlott szkennelt papírdokumentumokon használni. Beolvasott papírdokumentumok használata Elég gyakran használják ezt a műveletet a beolvasott papírdokumentumokban található duplikált oldalak keresésére. A beolvasott dokumentumokat OCR-felismerésnek kell alávetni, mielőtt bármilyen szövegalapú feldolgozásra használná őket. Az OCR egy olyan folyamat, amely felismeri a szöveget a beolvasott dokumentumokban, és kereshetővé teszi azokat. Lényeges megérteni, hogy a szkennelt dokumentumokban a szövegfelismerés hibalehetőségekkel jár, és ritkán 100%-os pontosságú. A hibák száma a szkennelési felbontástól és az eredeti dokumentum minőségétől függ. A leggyakoribb esetekben egy szkennelt oldal 1-10 felismerési hibát tartalmazhat, amikor bizonyos betűket helytelenül azonosítanak. Például a betűtípustól függően a kisbetűs l betű pontosan úgy nézhet ki, mint az 1 számjegy . A nagybetűs O betűt gyakran tévesen azonosítják a 0 számjegyként, vagy a nagybetűs S betűt az 5 számjegyként stb. Mivel sok alfanumerikus szimbólumnak hasonló vagy azonos fizikai jellemzői vannak, a megkülönböztetés gyakran kihívást jelent. Ezért jön jól a hasonlóságon alapuló összehasonlítás a szövegfelismerési folyamat által előállított oldalak közötti apró különbségek észlelésére. A gyenge minőségű szkennelt dokumentumok nagyszámú hibát tartalmazhatnak, így használhatatlanná válhatnak bármilyen megbízható szövegalapú összehasonlításra. Tekintse meg a következő bemutatót a beolvasott dokumentumok OCR felismeréséről és a szövegalapú feldolgozásra való alkalmasságuk értékeléséről. . Előfeltételek Az útmutató használatához szüksége van az Adobe® Acrobat® egy példányára, valamint a számítógépére telepített AutoSplit™ plug-inre. Letöltheti mind az Adobe® Acrobat®, mind az AutoSplit™ plug-in próbaverzióját. Tartalom

Csak az oldal szövegének összehasonlítása
Csak a vizuális megjelenés összehasonlítása
Más dokumentum összehasonlítása

1. módszer – Csak az oldal szövegének összehasonlítása áttekintés Ez a módszer az oldalak hasonlóságát csak az oldal tartalma alapján hasonlítja össze. A vizuális megjelenés, a szöveg pozíciója és sorrendje irreleváns. Ez a módszer figyelmen kívül hagyja az oldalakon található képeket és grafikákat is. A módosított koszinusz hasonlósági metrikát használjuk annak kiszámítására, hogy két oldal mennyire hasonlít egymáshoz a szöveges tartalmuk alapján. 1. lépés – PDF-fájl megnyitása Indítsa el az Adobe® Acrobat® alkalmazást, és nyisson meg egy PDF-fájlt a “Fájl > Megnyitás…” menü segítségével.2. lépés – A “Duplikált oldalak keresése” párbeszédpanel megnyitása Válassza a “Plug-Ins > Split Documents > Find and Delete Duplicate Pages…” lehetőséget a “Find Duplicate Pages” párbeszédpanel megnyitásához.3. lépés – Beállítások megadása Jelölje be a “Csak az oldalak szövegének összehasonlítása (figyelmen kívül hagyja az oldalak vizuális megjelenését)” opciót.Előre meghatározott beállítások használata A szövegalapú módszer számos előre meghatározott paraméterkészletet biztosít, amelyek alkalmasak különböző típusú, eltérő mennyiségű felismerési hibával rendelkező dokumentumok összehasonlítására. Az egyes előre definiált paraméterkészletek különböző feltételeket biztosítanak a hasonlósági számításokhoz:

Egyéni beállítások – minden beállítást a felhasználó ad meg
Szkennelt papírdokumentum: High Quality
Scannelt papír dokumentum: High Quality
Scannelt papír dokumentum: Közepes minőség
Fax dokumentum: Alacsony minőség
Nem szkennelt PDF: pontos egyezés
Nem szkennelt PDF: homályos egyezés
Pontos egyezés (szövegsorrenddel)- ez a módszer nem használja a koszinusz hasonlóságot

A beállítások az előre meghatározott paraméterkészlet kiválasztása után a menü alatt jelennek meg.Itt találhatók az előre definiált készletek által használt beállítások:Az oldalhasonlósági beállítások testreszabásához kattintson a “Szerkesztés…” gombra:A szöveges összehasonlítási módszer 3 paramétert használ annak korlátozására, hogy két “hasonló” oldal mennyire különbözhet egymástól. E paraméterek változtatásával lehetővé válik a különböző mértékű hasonlóságot mutató oldalak felismerése.

Minimális megengedett oldalszöveg-hasonlóság (százalékban) – ez a koszinusz hasonlósági metrika értéke százalékban kifejezve. Adja meg a minimális megengedett oldalszöveg-hasonlóságot 70 és 100 között (százalékban).
Maximális megengedett oldalhossz-különbség (karakterekben).
Maximális megengedett oldalszöveg-különbség (szavakban).

Ezekkel a beállításokkal kísérletezhet a feldolgozási beállításokkal, ha egy adott dokumentumhoz szükséges a feldolgozási algoritmus beállítása.Mintaoldalak használata Opcionálisan kattintson a “Set From Page Sample…” (Beállítás oldalmintából…) gombra az oldalhasonlósági beállítások megadásához a két mintaoldal alapján:Válasszon ki két azonosnak tekinthető oldalt. A szoftver automatikusan kiszámítja az oldalhasonlóságot, és a párbeszédpanel bal alsó sarkában megjelenik a statisztika. Kattintson az “OK” gombra az aktuális hasonlósági beállítások mentéséhez.Szövegszűrési beállítások megadása Számos paraméter szabályozza a szövegösszehasonlító algoritmus által elemzett oldaltartalmat. Ezeket a beállításokat olyan szkennelt papírdokumentumok összehasonlításakor használja, amelyek különböző szövegfelismerési hibákat tartalmazhatnak. Ezek az opciók kizárnak bizonyos típusú karaktereket a feldolgozásból. Sok esetben ez segíthet a pontosabb hasonlósági metrika kiszámításában.

Ignore text case – ez a beállítás figyelmen kívül hagyja a szöveg nagy- és kisbetűit a szöveg összehasonlítása során.
Ignore punctuation (,.!?-) – ez a beállítás kizárja az összes írásjelet az összehasonlításból.
Ignore non-alphanumeric characters – ez a beállítás figyelmen kívül hagy minden karaktert a betűk és számjegyek kivételével.

Kattintson az “OK” gombra az oldal hasonlósági beállításainak mentéséhez.Kattintson az “OK” gombra az aktuális PDF dokumentumban a duplikált oldalak keresésének megkezdéséhez:4. lépés – Duplikált oldalak ellenőrzése A “Duplikált oldalak törlése” párbeszédpanel a duplikált vagy majdnem duplikált oldalak listáját mutatja. Kattintson egy oldalrekordra a megfelelő oldal megjelenítéséhez a megjelenítőben. Vizsgálja meg az oldalakat, és jelölje ki/le a törlendő oldalakat. Opcionálisan kattintson a “Jelentés mentése…” gombra egy HTML formátumú oldalhasonlósági jelentés létrehozásához. Vagy kattintson a “Könyvjelző oldalak” gombra, hogy PDF formátumban könyvjelzőket hozzon létre a kiválasztott duplikált oldalakhoz.A beépülő modul lehetővé teszi a megtalált duplikált vagy majdnem duplikált oldalak előnézetét/összehasonlítását. Az oldalhasonlóság (%-ban) és a nem egyező szavak száma minden oldalpár esetében megjelenik. Itt vannak a beolvasott papírdokumentum-párra kiszámított példák:Vegye figyelembe, hogy a szöveg megjelenése és elhelyezkedése nem befolyásolja az eredményeket. Ez a két oldal a szöveg színének különbsége ellenére azonosnak tekinthető:

Ez a két oldal a tartalom elrendezésének különbsége ellenére azonosnak tekinthető: 5. lépés – A duplikált oldalak kivonása vagy könyvjelzővel való ellátása Opcionálisan használhatja a “Könyvjelző oldalak” gombot az összes ellenőrzött oldal könyvjelzővel való ellátásához. Ez akkor hasznos, ha nem tervezi a talált duplikált oldalak törlését a dokumentumból. Az oldalak előtt található jelölőnégyzetekkel kiválaszthatja/elhagyhatja azokat a feldolgozási készletből. Az “Oldalak kivonása….” gomb segítségével az összes ellenőrzött oldalt kiveheti egy külön PDF-dokumentumba. Ez a művelet nem távolítja el az oldalakat az aktuális dokumentumból. Használja a “Jelentés mentése…” gombot az oldalhasonlóság-számítási jelentés HTML-fájlba történő mentéséhez. Ez tartalmazza az oldalhasonlóság részleteit, megmutatja az oldalak közötti különbségeket és felsorolja a hiányzó szavakat. Nagyon hasznos lehet a mélyreható elemzéshez. 6. lépés – Duplikált oldalak törlése Használja az oldalak előtti jelölőnégyzeteket az oldalak törlésének kiválasztásához/elutasításához. Nyomja meg az “Oldalak törlése” gombot a “Duplikált oldalak törlése” párbeszédpanelen az összes bejelölt oldal eltávolításához az aktuális PDF dokumentumból: A megerősítéshez kattintson az “OK” gombra. Az oldalak véglegesen eltávolításra kerülnek. 2. módszer – Csak a vizuális megjelenés összehasonlítása áttekintés Ez a módszer összehasonlítja az oldalakat “képként”, és felismeri a pontosan ugyanúgy kinéző oldalakat. Ez a módszer nem hasonlítja össze az oldalon esetleg jelen lévő láthatatlan szöveget. Ezt a módszert nem ajánlott szkennelt papíralapú dokumentumok esetén használni. 1. lépés – PDF-fájl megnyitása Indítsa el az Adobe® Acrobat® alkalmazást, és nyisson meg egy PDF-fájlt a “Fájl > Megnyitás…” menü segítségével. 2. lépés – A “Duplikált oldalak keresése” párbeszédpanel megnyitása Válassza a “Plug-Ins > Split Documents > Find and Delete Duplicate Pages…” lehetőséget a “Find Duplicate Pages” párbeszédpanel megnyitásához. 3. lépés – Beállítások megadása Jelölje be a “Vizuális megjelenés összehasonlítása a pontos egyezéshez (képek összehasonlítására használható)” opciót. Kattintson az “OK” gombra a duplikált oldalak keresésének megkezdéséhez. 4. lépés – Duplikált oldalak ellenőrzése A “Duplikált oldalak törlése” párbeszédpanel megjeleníti a duplikált vagy majdnem duplikált oldalak listáját. Kattintson egy oldalrekordra a megfelelő oldal egymás melletti nézetben történő megjelenítéséhez. Vizsgálja meg az oldalakat, és jelölje ki/le az oldalakat az esetleges törléshez. Opcionálisan kattintson a “Jelentés mentése…” gombra egy HTML formátumú oldalhasonlósági jelentés létrehozásához. Vagy kattintson a “Könyvjelző oldalak” gombra, hogy PDF formátumban könyvjelzőket hozzon létre a kiválasztott duplikált oldalakhoz. Ez a módszer az oldalak kisebb (mintavételezett) másolatainak létrehozásán és “képként” történő összehasonlításán alapul. A következő példa két azonos oldalt mutat, amelyek csak grafikát tartalmaznak, kereshető szöveget nem: Ha az oldalak vizuálisan azonosak, akkor a szoftver duplikátumként érzékeli őket: Ezt a két oldalt az egyik oldalon lévő “Jóváhagyva” bélyegző miatt különbözőnek tekinti: Ezt a két oldalt ez a módszer azonosnak tekinti: A szövegalapú összehasonlítási módszerrel ellentétben, ha a szöveg színe vagy stílusa eltérő, akkor az oldalak nem tekinthetők azonosnak: 5. lépés – Duplikált oldalak törlése A folytatáshoz kattintson a “Duplikált oldalak törlése” párbeszédpanel “Oldalak törlése” gombjára. Kattintson az “OK” gombra az oldalak törléséhez az aktuális PDF dokumentumokból. Az oldalak véglegesen eltávolításra kerülnek. Több PDF dokumentum összehasonlítása Ez a művelet a több PDF dokumentumban található duplikált oldalak keresésére és eltávolítására használható. A módszer lényege, hogy egy vagy több dokumentumot egyetlen PDF-fájlba egyesít, és az így kapott fájlon futtatja a “Duplikált oldalak keresése és törlése” műveletet. Ez lényegében egyetlen, duplikátum nélküli dokumentumot eredményez. Opcionálisan lehetőség van az összes észlelt duplikált oldal külön PDF-dokumentumba történő kivonására. 1. lépés – Több PDF-dokumentum kombinálása áttekintés Indítsa el az Adobe® Acrobat® alkalmazást, és válassza az “Eszközök” menüpontot. Válassza ki az Eszközök listából a “Fájlok kombinálása” ikont. Kattintson a “Fájlok összevonása” menü “Fájlok hozzáadása…” gombjára, és válassza ki az összevonandó PDF fájlokat az összehasonlításhoz. Kattintson a menü “Combine” gombjára a kiválasztott PDF fájlok egyesítéséhez. 2. lépés – Duplikált oldalak keresése A kombinált kimeneti PDF fájl megjelenik a képernyőn. Ha nem, nyissa meg a kombinált PDF fájlt. Válassza a “Plug-Ins > Split Documents > Find and Delete Duplicate Pages…” lehetőséget a “Find Duplicate Pages” párbeszédpanel megnyitásához. Jelölje be a “Vizuális megjelenés összehasonlítása a pontos egyezéshez (képek összehasonlítására is használható)” opciót. Kattintson az “OK” gombra a duplikált oldalak keresésének megkezdéséhez. 3. lépés – Duplikált oldalak kivonása A “Duplikált oldalak törlése” párbeszédpanel megjeleníti a duplikált vagy majdnem duplikált oldalak listáját. Kattintson egy oldalrekordra a megfelelő oldal megjelenítéséhez a megjelenítőben. Vizsgálja meg az oldalakat, és jelölje ki/le az oldalakat. Kattintson az “Oldalak kivonása…” gombra a kiválasztott duplikált oldalak új PDF-dokumentumba történő kivonásához. Adjon meg egy kimeneti mappát és egy fájlnevet. Kattintson a “Mentés” gombra, ha kész. Megjelenik a párbeszédpanel, amely megmutatja a külön dokumentumba kivont oldalak számát. Most már az összes duplikált oldalt külön PDF-fájlba mentette, mielőtt törölte volna őket. Ezeket az oldalakat megvizsgálhatja, és szükség esetén később felhasználhatja. Kattintson az “OK” gombra a párbeszédpanel bezárásához. 4. lépés – Duplikált oldalak törlése A folytatáshoz kattintson a “Duplikált oldalak törlése” párbeszédpanel “Oldalak törlése” gombjára. Kattintson az “OK” gombra a párbeszédpanelen a kiválasztott duplikált oldalak törléséhez az aktuális PDF dokumentumból. A kiválasztott duplikált oldalak véglegesen eltávolításra kerülnek a PDF dokumentumból. A módosított dokumentum lemezre mentéséhez a “Fájl > Mentés” menüpontot kell használni. Kattintson ide a rendelkezésre álló összes lépésről-lépésre történő oktatóprogram listájáért.

Vélemény, hozzászólás? Kilépés a válaszból