Bevezetés Ez az útmutató bemutatja, hogyan lehet megtalálni és opcionálisan törölni a hasonló vagy duplikált oldalakat ugyanazon a PDF-dokumentumon belül az Adobe® Acrobat® AutoSplit™ plug-in segítségével. Ez a művelet felismeri a hasonló oldalakat, és bemutatja azokat a felhasználónak felülvizsgálatra. A felhasználó áttekintheti az eredményeket, és a duplikátumok listájából kiválaszthat/levonhat egyes oldalakat az esetleges törlés vagy eltávolítás céljából. A következő műveleteket végezheti el:
- Duplikált és majdnem duplikált oldalak keresése
- Duplikált oldalak megjelölése
- Duplikált oldalak kivonása külön PDF-dokumentumba
- Duplikált oldalak törlése a dokumentumból
- Oldalhasonlósági jelentés mentése
A bővítmény két különböző módszert kínál a duplikált vagy majdnem duplikált oldalak felderítésére: Csak az oldalszöveg összehasonlítása Ezzel a módszerrel az oldalszöveget hasonlíthatja össze, függetlenül annak vizuális megjelenésétől. Az oldal hasonlóságát csak a szövegtartalom alapján számítja ki, és teljesen figyelmen kívül hagyja a szöveg megjelenését, az elrendezést, a képeket és az oldalon esetleg jelen lévő grafikákat. Ez a legjobb módszer a duplikációk felderítésére a legtöbb dokumentumtípusban. Az oldalak vizuális megjelenésének összehasonlítása Ez a módszer az oldalakat “képként” hasonlítja össze, és felismeri a pontosan ugyanúgy kinéző oldalakat. Ez a módszer nem hasonlítja össze az oldalon esetleg jelen lévő láthatatlan szöveget. Ezt a módszert nem ajánlott szkennelt papírdokumentumokon használni. Beolvasott papírdokumentumok használata Elég gyakran használják ezt a műveletet a beolvasott papírdokumentumokban található duplikált oldalak keresésére. A beolvasott dokumentumokat OCR-felismerésnek kell alávetni, mielőtt bármilyen szövegalapú feldolgozásra használná őket. Az OCR egy olyan folyamat, amely felismeri a szöveget a beolvasott dokumentumokban, és kereshetővé teszi azokat. Lényeges megérteni, hogy a szkennelt dokumentumokban a szövegfelismerés hibalehetőségekkel jár, és ritkán 100%-os pontosságú. A hibák száma a szkennelési felbontástól és az eredeti dokumentum minőségétől függ. A leggyakoribb esetekben egy szkennelt oldal 1-10 felismerési hibát tartalmazhat, amikor bizonyos betűket helytelenül azonosítanak. Például a betűtípustól függően a kisbetűs l betű pontosan úgy nézhet ki, mint az 1 számjegy . A nagybetűs O betűt gyakran tévesen azonosítják a 0 számjegyként, vagy a nagybetűs S betűt az 5 számjegyként stb. Mivel sok alfanumerikus szimbólumnak hasonló vagy azonos fizikai jellemzői vannak, a megkülönböztetés gyakran kihívást jelent. Ezért jön jól a hasonlóságon alapuló összehasonlítás a szövegfelismerési folyamat által előállított oldalak közötti apró különbségek észlelésére. A gyenge minőségű szkennelt dokumentumok nagyszámú hibát tartalmazhatnak, így használhatatlanná válhatnak bármilyen megbízható szövegalapú összehasonlításra. Tekintse meg a következő bemutatót a beolvasott dokumentumok OCR felismeréséről és a szövegalapú feldolgozásra való alkalmasságuk értékeléséről. . Előfeltételek Az útmutató használatához szüksége van az Adobe® Acrobat® egy példányára, valamint a számítógépére telepített AutoSplit™ plug-inre. Letöltheti mind az Adobe® Acrobat®, mind az AutoSplit™ plug-in próbaverzióját. Tartalom
- Csak az oldal szövegének összehasonlítása
- Csak a vizuális megjelenés összehasonlítása
- Más dokumentum összehasonlítása
1. módszer – Csak az oldal szövegének összehasonlítása áttekintés Ez a módszer az oldalak hasonlóságát csak az oldal tartalma alapján hasonlítja össze. A vizuális megjelenés, a szöveg pozíciója és sorrendje irreleváns. Ez a módszer figyelmen kívül hagyja az oldalakon található képeket és grafikákat is. A módosított koszinusz hasonlósági metrikát használjuk annak kiszámítására, hogy két oldal mennyire hasonlít egymáshoz a szöveges tartalmuk alapján. 1. lépés – PDF-fájl megnyitása Indítsa el az Adobe® Acrobat® alkalmazást, és nyisson meg egy PDF-fájlt a “Fájl > Megnyitás…” menü segítségével.2. lépés – A “Duplikált oldalak keresése” párbeszédpanel megnyitása Válassza a “Plug-Ins > Split Documents > Find and Delete Duplicate Pages…” lehetőséget a “Find Duplicate Pages” párbeszédpanel megnyitásához.
3. lépés – Beállítások megadása Jelölje be a “Csak az oldalak szövegének összehasonlítása (figyelmen kívül hagyja az oldalak vizuális megjelenését)” opciót.
Előre meghatározott beállítások használata A szövegalapú módszer számos előre meghatározott paraméterkészletet biztosít, amelyek alkalmasak különböző típusú, eltérő mennyiségű felismerési hibával rendelkező dokumentumok összehasonlítására. Az egyes előre definiált paraméterkészletek különböző feltételeket biztosítanak a hasonlósági számításokhoz:
- Egyéni beállítások – minden beállítást a felhasználó ad meg
- Szkennelt papírdokumentum: High Quality
- Scannelt papír dokumentum: High Quality
- Scannelt papír dokumentum: Közepes minőség
- Fax dokumentum: Alacsony minőség
- Nem szkennelt PDF: pontos egyezés
- Nem szkennelt PDF: homályos egyezés
- Pontos egyezés (szövegsorrenddel)- ez a módszer nem használja a koszinusz hasonlóságot
A beállítások az előre meghatározott paraméterkészlet kiválasztása után a menü alatt jelennek meg.
Itt találhatók az előre definiált készletek által használt beállítások:
Az oldalhasonlósági beállítások testreszabásához kattintson a “Szerkesztés…” gombra:
A szöveges összehasonlítási módszer 3 paramétert használ annak korlátozására, hogy két “hasonló” oldal mennyire különbözhet egymástól. E paraméterek változtatásával lehetővé válik a különböző mértékű hasonlóságot mutató oldalak felismerése.
- Minimális megengedett oldalszöveg-hasonlóság (százalékban) – ez a koszinusz hasonlósági metrika értéke százalékban kifejezve. Adja meg a minimális megengedett oldalszöveg-hasonlóságot 70 és 100 között (százalékban).
- Maximális megengedett oldalhossz-különbség (karakterekben).
- Maximális megengedett oldalszöveg-különbség (szavakban).
Ezekkel a beállításokkal kísérletezhet a feldolgozási beállításokkal, ha egy adott dokumentumhoz szükséges a feldolgozási algoritmus beállítása.Mintaoldalak használata Opcionálisan kattintson a “Set From Page Sample…” (Beállítás oldalmintából…) gombra az oldalhasonlósági beállítások megadásához a két mintaoldal alapján:
Válasszon ki két azonosnak tekinthető oldalt. A szoftver automatikusan kiszámítja az oldalhasonlóságot, és a párbeszédpanel bal alsó sarkában megjelenik a statisztika. Kattintson az “OK” gombra az aktuális hasonlósági beállítások mentéséhez.
Szövegszűrési beállítások megadása Számos paraméter szabályozza a szövegösszehasonlító algoritmus által elemzett oldaltartalmat. Ezeket a beállításokat olyan szkennelt papírdokumentumok összehasonlításakor használja, amelyek különböző szövegfelismerési hibákat tartalmazhatnak. Ezek az opciók kizárnak bizonyos típusú karaktereket a feldolgozásból. Sok esetben ez segíthet a pontosabb hasonlósági metrika kiszámításában.
- Ignore text case – ez a beállítás figyelmen kívül hagyja a szöveg nagy- és kisbetűit a szöveg összehasonlítása során.
- Ignore punctuation (,.!?-) – ez a beállítás kizárja az összes írásjelet az összehasonlításból.
- Ignore non-alphanumeric characters – ez a beállítás figyelmen kívül hagy minden karaktert a betűk és számjegyek kivételével.
Kattintson az “OK” gombra az oldal hasonlósági beállításainak mentéséhez.Kattintson az “OK” gombra az aktuális PDF dokumentumban a duplikált oldalak keresésének megkezdéséhez:
4. lépés – Duplikált oldalak ellenőrzése A “Duplikált oldalak törlése” párbeszédpanel a duplikált vagy majdnem duplikált oldalak listáját mutatja. Kattintson egy oldalrekordra a megfelelő oldal megjelenítéséhez a megjelenítőben. Vizsgálja meg az oldalakat, és jelölje ki/le a törlendő oldalakat. Opcionálisan kattintson a “Jelentés mentése…” gombra egy HTML formátumú oldalhasonlósági jelentés létrehozásához. Vagy kattintson a “Könyvjelző oldalak” gombra, hogy PDF formátumban könyvjelzőket hozzon létre a kiválasztott duplikált oldalakhoz.
A beépülő modul lehetővé teszi a megtalált duplikált vagy majdnem duplikált oldalak előnézetét/összehasonlítását. Az oldalhasonlóság (%-ban) és a nem egyező szavak száma minden oldalpár esetében megjelenik. Itt vannak a beolvasott papírdokumentum-párra kiszámított példák:
Vegye figyelembe, hogy a szöveg megjelenése és elhelyezkedése nem befolyásolja az eredményeket. Ez a két oldal a szöveg színének különbsége ellenére azonosnak tekinthető:
Ez a két oldal a tartalom elrendezésének különbsége ellenére azonosnak tekinthető:
Használja a “Jelentés mentése…” gombot az oldalhasonlóság-számítási jelentés HTML-fájlba történő mentéséhez. Ez tartalmazza az oldalhasonlóság részleteit, megmutatja az oldalak közötti különbségeket és felsorolja a hiányzó szavakat. Nagyon hasznos lehet a mélyreható elemzéshez.
6. lépés – Duplikált oldalak törlése Használja az oldalak előtti jelölőnégyzeteket az oldalak törlésének kiválasztásához/elutasításához. Nyomja meg az “Oldalak törlése” gombot a “Duplikált oldalak törlése” párbeszédpanelen az összes bejelölt oldal eltávolításához az aktuális PDF dokumentumból:
A megerősítéshez kattintson az “OK” gombra. Az oldalak véglegesen eltávolításra kerülnek.
2. módszer – Csak a vizuális megjelenés összehasonlítása áttekintés Ez a módszer összehasonlítja az oldalakat “képként”, és felismeri a pontosan ugyanúgy kinéző oldalakat. Ez a módszer nem hasonlítja össze az oldalon esetleg jelen lévő láthatatlan szöveget. Ezt a módszert nem ajánlott szkennelt papíralapú dokumentumok esetén használni. 1. lépés – PDF-fájl megnyitása Indítsa el az Adobe® Acrobat® alkalmazást, és nyisson meg egy PDF-fájlt a “Fájl > Megnyitás…” menü segítségével.
2. lépés – A “Duplikált oldalak keresése” párbeszédpanel megnyitása Válassza a “Plug-Ins > Split Documents > Find and Delete Duplicate Pages…” lehetőséget a “Find Duplicate Pages” párbeszédpanel megnyitásához.
3. lépés – Beállítások megadása Jelölje be a “Vizuális megjelenés összehasonlítása a pontos egyezéshez (képek összehasonlítására használható)” opciót.
Kattintson az “OK” gombra a duplikált oldalak keresésének megkezdéséhez. 4. lépés – Duplikált oldalak ellenőrzése A “Duplikált oldalak törlése” párbeszédpanel megjeleníti a duplikált vagy majdnem duplikált oldalak listáját. Kattintson egy oldalrekordra a megfelelő oldal egymás melletti nézetben történő megjelenítéséhez. Vizsgálja meg az oldalakat, és jelölje ki/le az oldalakat az esetleges törléshez.
Opcionálisan kattintson a “Jelentés mentése…” gombra egy HTML formátumú oldalhasonlósági jelentés létrehozásához. Vagy kattintson a “Könyvjelző oldalak” gombra, hogy PDF formátumban könyvjelzőket hozzon létre a kiválasztott duplikált oldalakhoz. Ez a módszer az oldalak kisebb (mintavételezett) másolatainak létrehozásán és “képként” történő összehasonlításán alapul. A következő példa két azonos oldalt mutat, amelyek csak grafikát tartalmaznak, kereshető szöveget nem:
Ha az oldalak vizuálisan azonosak, akkor a szoftver duplikátumként érzékeli őket:
Ezt a két oldalt az egyik oldalon lévő “Jóváhagyva” bélyegző miatt különbözőnek tekinti:
Ezt a két oldalt ez a módszer azonosnak tekinti:
A szövegalapú összehasonlítási módszerrel ellentétben, ha a szöveg színe vagy stílusa eltérő, akkor az oldalak nem tekinthetők azonosnak:
5. lépés – Duplikált oldalak törlése A folytatáshoz kattintson a “Duplikált oldalak törlése” párbeszédpanel “Oldalak törlése” gombjára. Kattintson az “OK” gombra az oldalak törléséhez az aktuális PDF dokumentumokból. Az oldalak véglegesen eltávolításra kerülnek.
Több PDF dokumentum összehasonlítása Ez a művelet a több PDF dokumentumban található duplikált oldalak keresésére és eltávolítására használható. A módszer lényege, hogy egy vagy több dokumentumot egyetlen PDF-fájlba egyesít, és az így kapott fájlon futtatja a “Duplikált oldalak keresése és törlése” műveletet. Ez lényegében egyetlen, duplikátum nélküli dokumentumot eredményez. Opcionálisan lehetőség van az összes észlelt duplikált oldal külön PDF-dokumentumba történő kivonására. 1. lépés – Több PDF-dokumentum kombinálása áttekintés Indítsa el az Adobe® Acrobat® alkalmazást, és válassza az “Eszközök” menüpontot. Válassza ki az Eszközök listából a “Fájlok kombinálása” ikont.
Kattintson a “Fájlok összevonása” menü “Fájlok hozzáadása…” gombjára, és válassza ki az összevonandó PDF fájlokat az összehasonlításhoz.
Kattintson a menü “Combine” gombjára a kiválasztott PDF fájlok egyesítéséhez.
2. lépés – Duplikált oldalak keresése A kombinált kimeneti PDF fájl megjelenik a képernyőn. Ha nem, nyissa meg a kombinált PDF fájlt. Válassza a “Plug-Ins > Split Documents > Find and Delete Duplicate Pages…” lehetőséget a “Find Duplicate Pages” párbeszédpanel megnyitásához.
Jelölje be a “Vizuális megjelenés összehasonlítása a pontos egyezéshez (képek összehasonlítására is használható)” opciót. Kattintson az “OK” gombra a duplikált oldalak keresésének megkezdéséhez.
3. lépés – Duplikált oldalak kivonása A “Duplikált oldalak törlése” párbeszédpanel megjeleníti a duplikált vagy majdnem duplikált oldalak listáját. Kattintson egy oldalrekordra a megfelelő oldal megjelenítéséhez a megjelenítőben. Vizsgálja meg az oldalakat, és jelölje ki/le az oldalakat. Kattintson az “Oldalak kivonása…” gombra a kiválasztott duplikált oldalak új PDF-dokumentumba történő kivonásához.
Adjon meg egy kimeneti mappát és egy fájlnevet. Kattintson a “Mentés” gombra, ha kész.
Megjelenik a párbeszédpanel, amely megmutatja a külön dokumentumba kivont oldalak számát. Most már az összes duplikált oldalt külön PDF-fájlba mentette, mielőtt törölte volna őket. Ezeket az oldalakat megvizsgálhatja, és szükség esetén később felhasználhatja. Kattintson az “OK” gombra a párbeszédpanel bezárásához.
4. lépés – Duplikált oldalak törlése A folytatáshoz kattintson a “Duplikált oldalak törlése” párbeszédpanel “Oldalak törlése” gombjára.
Kattintson az “OK” gombra a párbeszédpanelen a kiválasztott duplikált oldalak törléséhez az aktuális PDF dokumentumból.
A kiválasztott duplikált oldalak véglegesen eltávolításra kerülnek a PDF dokumentumból. A módosított dokumentum lemezre mentéséhez a “Fájl > Mentés” menüpontot kell használni. Kattintson ide a rendelkezésre álló összes lépésről-lépésre történő oktatóprogram listájáért.