Bevezetés Ez az útmutató bemutatja, hogyan lehet megtalálni és opcionálisan törölni a hasonló vagy duplikált oldalakat ugyanazon a PDF-dokumentumon belül az Adobe® Acrobat® AutoSplit™ plug-in segítségével. Ez a művelet felismeri a hasonló oldalakat, és bemutatja azokat a felhasználónak felülvizsgálatra. A felhasználó áttekintheti az eredményeket, és a duplikátumok listájából kiválaszthat/levonhat egyes oldalakat az esetleges törlés vagy eltávolítás céljából. A következő műveleteket végezheti el:
- Duplikált és majdnem duplikált oldalak keresése
- Duplikált oldalak megjelölése
- Duplikált oldalak kivonása külön PDF-dokumentumba
- Duplikált oldalak törlése a dokumentumból
- Oldalhasonlósági jelentés mentése
A bővítmény két különböző módszert kínál a duplikált vagy majdnem duplikált oldalak felderítésére: Csak az oldalszöveg összehasonlítása Ezzel a módszerrel az oldalszöveget hasonlíthatja össze, függetlenül annak vizuális megjelenésétől. Az oldal hasonlóságát csak a szövegtartalom alapján számítja ki, és teljesen figyelmen kívül hagyja a szöveg megjelenését, az elrendezést, a képeket és az oldalon esetleg jelen lévő grafikákat. Ez a legjobb módszer a duplikációk felderítésére a legtöbb dokumentumtípusban. Az oldalak vizuális megjelenésének összehasonlítása Ez a módszer az oldalakat “képként” hasonlítja össze, és felismeri a pontosan ugyanúgy kinéző oldalakat. Ez a módszer nem hasonlítja össze az oldalon esetleg jelen lévő láthatatlan szöveget. Ezt a módszert nem ajánlott szkennelt papírdokumentumokon használni. Beolvasott papírdokumentumok használata Elég gyakran használják ezt a műveletet a beolvasott papírdokumentumokban található duplikált oldalak keresésére. A beolvasott dokumentumokat OCR-felismerésnek kell alávetni, mielőtt bármilyen szövegalapú feldolgozásra használná őket. Az OCR egy olyan folyamat, amely felismeri a szöveget a beolvasott dokumentumokban, és kereshetővé teszi azokat. Lényeges megérteni, hogy a szkennelt dokumentumokban a szövegfelismerés hibalehetőségekkel jár, és ritkán 100%-os pontosságú. A hibák száma a szkennelési felbontástól és az eredeti dokumentum minőségétől függ. A leggyakoribb esetekben egy szkennelt oldal 1-10 felismerési hibát tartalmazhat, amikor bizonyos betűket helytelenül azonosítanak. Például a betűtípustól függően a kisbetűs l betű pontosan úgy nézhet ki, mint az 1 számjegy . A nagybetűs O betűt gyakran tévesen azonosítják a 0 számjegyként, vagy a nagybetűs S betűt az 5 számjegyként stb. Mivel sok alfanumerikus szimbólumnak hasonló vagy azonos fizikai jellemzői vannak, a megkülönböztetés gyakran kihívást jelent. Ezért jön jól a hasonlóságon alapuló összehasonlítás a szövegfelismerési folyamat által előállított oldalak közötti apró különbségek észlelésére. A gyenge minőségű szkennelt dokumentumok nagyszámú hibát tartalmazhatnak, így használhatatlanná válhatnak bármilyen megbízható szövegalapú összehasonlításra. Tekintse meg a következő bemutatót a beolvasott dokumentumok OCR felismeréséről és a szövegalapú feldolgozásra való alkalmasságuk értékeléséről. . Előfeltételek Az útmutató használatához szüksége van az Adobe® Acrobat® egy példányára, valamint a számítógépére telepített AutoSplit™ plug-inre. Letöltheti mind az Adobe® Acrobat®, mind az AutoSplit™ plug-in próbaverzióját. Tartalom
- Csak az oldal szövegének összehasonlítása
- Csak a vizuális megjelenés összehasonlítása
- Más dokumentum összehasonlítása
1. módszer – Csak az oldal szövegének összehasonlítása áttekintés Ez a módszer az oldalak hasonlóságát csak az oldal tartalma alapján hasonlítja össze. A vizuális megjelenés, a szöveg pozíciója és sorrendje irreleváns. Ez a módszer figyelmen kívül hagyja az oldalakon található képeket és grafikákat is. A módosított koszinusz hasonlósági metrikát használjuk annak kiszámítására, hogy két oldal mennyire hasonlít egymáshoz a szöveges tartalmuk alapján. 1. lépés – PDF-fájl megnyitása Indítsa el az Adobe® Acrobat® alkalmazást, és nyisson meg egy PDF-fájlt a “Fájl > Megnyitás…” menü segítségével.2. lépés – A “Duplikált oldalak keresése” párbeszédpanel megnyitása Válassza a “Plug-Ins > Split Documents > Find and Delete Duplicate Pages…” lehetőséget a “Find Duplicate Pages” párbeszédpanel megnyitásához.3. lépés – Beállítások megadása Jelölje be a “Csak az oldalak szövegének összehasonlítása (figyelmen kívül hagyja az oldalak vizuális megjelenését)” opciót.Előre meghatározott beállítások használata A szövegalapú módszer számos előre meghatározott paraméterkészletet biztosít, amelyek alkalmasak különböző típusú, eltérő mennyiségű felismerési hibával rendelkező dokumentumok összehasonlítására. Az egyes előre definiált paraméterkészletek különböző feltételeket biztosítanak a hasonlósági számításokhoz:
- Egyéni beállítások – minden beállítást a felhasználó ad meg
- Szkennelt papírdokumentum: High Quality
- Scannelt papír dokumentum: High Quality
- Scannelt papír dokumentum: Közepes minőség
- Fax dokumentum: Alacsony minőség
- Nem szkennelt PDF: pontos egyezés
- Nem szkennelt PDF: homályos egyezés
- Pontos egyezés (szövegsorrenddel)- ez a módszer nem használja a koszinusz hasonlóságot
A beállítások az előre meghatározott paraméterkészlet kiválasztása után a menü alatt jelennek meg.Itt találhatók az előre definiált készletek által használt beállítások:Az oldalhasonlósági beállítások testreszabásához kattintson a “Szerkesztés…” gombra:A szöveges összehasonlítási módszer 3 paramétert használ annak korlátozására, hogy két “hasonló” oldal mennyire különbözhet egymástól. E paraméterek változtatásával lehetővé válik a különböző mértékű hasonlóságot mutató oldalak felismerése.
- Minimális megengedett oldalszöveg-hasonlóság (százalékban) – ez a koszinusz hasonlósági metrika értéke százalékban kifejezve. Adja meg a minimális megengedett oldalszöveg-hasonlóságot 70 és 100 között (százalékban).
- Maximális megengedett oldalhossz-különbség (karakterekben).
- Maximális megengedett oldalszöveg-különbség (szavakban).
Ezekkel a beállításokkal kísérletezhet a feldolgozási beállításokkal, ha egy adott dokumentumhoz szükséges a feldolgozási algoritmus beállítása.Mintaoldalak használata Opcionálisan kattintson a “Set From Page Sample…” (Beállítás oldalmintából…) gombra az oldalhasonlósági beállítások megadásához a két mintaoldal alapján:Válasszon ki két azonosnak tekinthető oldalt. A szoftver automatikusan kiszámítja az oldalhasonlóságot, és a párbeszédpanel bal alsó sarkában megjelenik a statisztika. Kattintson az “OK” gombra az aktuális hasonlósági beállítások mentéséhez.Szövegszűrési beállítások megadása Számos paraméter szabályozza a szövegösszehasonlító algoritmus által elemzett oldaltartalmat. Ezeket a beállításokat olyan szkennelt papírdokumentumok összehasonlításakor használja, amelyek különböző szövegfelismerési hibákat tartalmazhatnak. Ezek az opciók kizárnak bizonyos típusú karaktereket a feldolgozásból. Sok esetben ez segíthet a pontosabb hasonlósági metrika kiszámításában.
- Ignore text case – ez a beállítás figyelmen kívül hagyja a szöveg nagy- és kisbetűit a szöveg összehasonlítása során.
- Ignore punctuation (,.!?-) – ez a beállítás kizárja az összes írásjelet az összehasonlításból.
- Ignore non-alphanumeric characters – ez a beállítás figyelmen kívül hagy minden karaktert a betűk és számjegyek kivételével.
Kattintson az “OK” gombra az oldal hasonlósági beállításainak mentéséhez.Kattintson az “OK” gombra az aktuális PDF dokumentumban a duplikált oldalak keresésének megkezdéséhez:4. lépés – Duplikált oldalak ellenőrzése A “Duplikált oldalak törlése” párbeszédpanel a duplikált vagy majdnem duplikált oldalak listáját mutatja. Kattintson egy oldalrekordra a megfelelő oldal megjelenítéséhez a megjelenítőben. Vizsgálja meg az oldalakat, és jelölje ki/le a törlendő oldalakat. Opcionálisan kattintson a “Jelentés mentése…” gombra egy HTML formátumú oldalhasonlósági jelentés létrehozásához. Vagy kattintson a “Könyvjelző oldalak” gombra, hogy PDF formátumban könyvjelzőket hozzon létre a kiválasztott duplikált oldalakhoz.A beépülő modul lehetővé teszi a megtalált duplikált vagy majdnem duplikált oldalak előnézetét/összehasonlítását. Az oldalhasonlóság (%-ban) és a nem egyező szavak száma minden oldalpár esetében megjelenik. Itt vannak a beolvasott papírdokumentum-párra kiszámított példák:Vegye figyelembe, hogy a szöveg megjelenése és elhelyezkedése nem befolyásolja az eredményeket. Ez a két oldal a szöveg színének különbsége ellenére azonosnak tekinthető:
Ez a két oldal a tartalom elrendezésének különbsége ellenére azonosnak tekinthető: