Johdanto Tässä opetusohjelmassa näytetään, miten samankaltaiset tai päällekkäiset sivut löydetään ja poistetaan saman PDF-dokumentin sisältä Adobe® Acrobat®:n AutoSplit™-laajennuksen avulla. Tämä toiminto havaitsee samankaltaiset sivut ja esittää ne käyttäjälle tarkastelua varten. Käyttäjä voi tarkastella tuloksia ja valita/poistaa yksittäisiä sivuja kaksoiskappaleiden luettelosta mahdollista poistamista tai poistamista varten. Voit suorittaa seuraavat toiminnot:
- Etsiä päällekkäiset ja lähes päällekkäiset sivut
- Merkitä päällekkäiset sivut kirjanmerkkeihin
- Extraktoida päällekkäiset sivut erilliseen PDF-asiakirjaan
- Poista päällekkäiset sivut asiakirjasta
- Tallenna sivujen samankaltaisuusraportti
Liitännäisohjelmassa on käytettävissä kaksi erilaista menetelmää päällekkäisten tai lähes päällekkäisten sivujen havaitsemiseen: Vertaa vain sivutekstiä Käytä tätä menetelmää sivutekstin vertailuun sen visuaalisesta ulkoasusta riippumatta. Se laskee sivun samankaltaisuuden vain tekstisisällön perusteella ja jättää tekstin ulkonäön, ulkoasun, kuvat ja sivulla mahdollisesti olevat grafiikat kokonaan huomiotta. Se on paras menetelmä kaksoiskappaleiden havaitsemiseen useimmissa asiakirjatyypeissä. Vertaa sivujen visuaalista ulkoasua Tämä menetelmä vertaa sivuja ”kuvina” ja havaitsee täsmälleen samannäköiset sivut. Tämä menetelmä ei vertaa sivulla mahdollisesti olevaa näkymätöntä tekstiä. Tätä menetelmää ei suositella käytettäväksi skannattuihin paperiasiakirjoihin. Skannattujen paperiasiakirjojen käyttäminen Tätä toimintoa käytetään melko usein päällekkäisten sivujen löytämiseen skannatuista paperiasiakirjoista. Skannatut asiakirjat on OCR-skannattava ennen niiden käyttämistä tekstipohjaiseen käsittelyyn. OCR on prosessi, jossa skannatuissa asiakirjoissa oleva teksti tunnistetaan ja niistä tehdään hakukelpoisia. On tärkeää ymmärtää, että skannattujen asiakirjojen tekstintunnistus on altis virheille ja että se on harvoin 100-prosenttisen tarkka. Virheiden määrä riippuu skannaustarkkuudesta ja alkuperäisen asiakirjan laadusta. Tavallisimmissa tapauksissa skannattu sivu voi sisältää 1-10 tunnistusvirhettä, joissa tietyt kirjaimet tunnistetaan virheellisesti. Esimerkiksi fontista riippuen pieni kirjain l voi näyttää täsmälleen samalta kuin numero 1 . Iso kirjain O tunnistetaan usein virheellisesti numeroksi 0 tai iso kirjain S numeroksi 5 jne. Koska monilla aakkosnumeerisilla symboleilla on samankaltaiset tai identtiset fyysiset ominaisuudet, erottaminen on usein haasteellista. Tämän vuoksi samankaltaisuuteen perustuva vertailu on hyödyllinen tekstintunnistusprosessin tuottamien sivujen välisten pienten erojen havaitsemiseksi. Huonolaatuiset skannatut asiakirjat voivat sisältää paljon virheitä, minkä vuoksi niitä ei voida käyttää luotettavaan tekstipohjaiseen vertailuun. Katso seuraavasta ohjeesta, miten skannattuja asiakirjoja OCR-skannataan ja arvioidaan niiden soveltuvuus tekstipohjaiseen käsittelyyn. . Edellytykset Tarvitset Adobe® Acrobat® -ohjelman sekä AutoSplit™-lisäosan asennettuna tietokoneellesi, jotta voit käyttää tätä opetusohjelmaa. Voit ladata sekä Adobe® Acrobat®:n että AutoSplit™-lisäosan kokeiluversiot. Sisällysluettelo
- Vertaillaan vain sivutekstiä
- Vertaillaan vain visuaalista ulkoasua
- Vertaillaan useita asiakirjoja
Menetelmä 1 – Vertaillaan vain sivutekstiä yleiskatsaus Tällä menetelmällä verrataan sivujen samankaltaisuutta vain niiden sivusisällön perusteella. Visuaalisella ulkoasulla, tekstin sijainnilla ja järjestyksellä ei ole merkitystä. Tämä menetelmä ei myöskään huomioi sivuilla olevia kuvia ja grafiikkaa. Modifioitua kosinin samankaltaisuusmittaria käytetään laskemaan, kuinka samankaltaisia kaksi sivua ovat niiden tekstisisällön perusteella. Vaihe 1 – PDF-tiedoston avaaminen Käynnistä Adobe® Acrobat® -sovellus ja avaa PDF-tiedosto ”File > Open…” -valikosta.Vaihe 2 – Avaa ”Etsi päällekkäiset sivut” -valintaikkuna Avaa ”Etsi päällekkäiset sivut” -valintaikkuna valitsemalla ”Plug-Ins > Split Documents > Find and Delete Duplicate Pages…”.Vaihe 3 – Asetusten määrittäminen Valitse ”Vertaa vain sivutekstiä (sivujen visuaalinen ulkoasu jätetään huomiotta)”.Esiasetusten käyttäminen Tekstipohjainen menetelmä tarjoaa useita esiasetettuja parametrijoukkoja, jotka soveltuvat erityyppisten asiakirjojen vertailuun, joissa on erilainen määrä tunnistusvirheitä. Kukin ennalta määritetty parametrijoukko tarjoaa erilaiset olosuhteet samankaltaisuuslaskelmia varten:
- Mukautetut asetukset – kaikki asetukset määrittää käyttäjä
- Skannattu paperiasiakirja: High Quality
- Scanned Paper Document: Medium Quality
- Fax Document: Low Quality
- Non-scanned PDF: exact match
- Non-scanned PDF: fuzzy match
- Exact match (with text order)- this method does not use cosine similarity
Asetukset tulevat näkyviin valikon alapuolelle sen jälkeen, kun olet valinnut ennalta määritellyn parametrisarjan.Tässä ovat esiasetettujen sarjojen käyttämät asetukset:Klikkaa ”Muokkaa…” muokataksesi sivun samankaltaisuusasetuksia:Tekstivertailumenetelmä käyttää 3 parametria rajoittamaan sitä, kuinka erilaisia kaksi ”samanlaista” sivua voivat olla. Näitä parametreja vaihtelemalla on mahdollista havaita sivuja, joiden samankaltaisuusaste on erilainen.
- Sivun tekstin pienin sallittu samankaltaisuus (prosentteina) – tämä on kosinuksen samankaltaisuusmittarin arvo prosentteina ilmaistuna. Määritä pienin sallittu sivutekstin samankaltaisuus välillä 70-100 (prosentteina).
- Maksimi sallittu sivun pituusero (merkkeinä).
- Maksimi sallittu sivutekstin ero (sanoina).
Käytä näitä asetuksia käsittelyasetusten kokeilemiseen, kun käsittelyalgoritmia on tarpeen säätää tiettyä asiakirjaa varten.Käytä näytesivuja Vaihtoehtoisesti voit määrittää sivun samankaltaisuusasetukset kahden näytesivun perusteella valitsemalla ”Set From Page Sample…”:
Valitse kaksi sivua, joita voidaan pitää samanlaisina. Ohjelmisto laskee sivun samankaltaisuuden automaattisesti ja tilastot näkyvät valintaikkunan vasemmassa alakulmassa. Tallenna nykyiset samankaltaisuusasetukset napsauttamalla ”OK”.Tekstin suodatusasetusten määrittäminen On olemassa useita parametreja, jotka ohjaavat tekstivertailualgoritmin analysoimaa sivun sisältöä. Käytä näitä asetuksia, kun vertaat skannattuja paperiasiakirjoja, jotka saattavat sisältää erilaisia tekstintunnistusvirheitä. Nämä vaihtoehdot sulkevat tietynlaiset merkit käsittelyn ulkopuolelle. Monissa tapauksissa se voi auttaa laskemaan tarkemman samankaltaisuusmittarin.
- Ignore text case – tämä vaihtoehto jättää tekstin isot ja pienet kirjaimet huomioimatta tekstiä verrattaessa.
- Ignore punctuation (,.!?-) – tämä vaihtoehto jättää kaikki välimerkit vertailun ulkopuolelle.
- Ignore non-alphanumeric characters – tämä vaihtoehto jättää huomioimatta kaikki muut merkit lukuun ottamatta kirjaimia ja numeroita.
Tallenna sivujen samankaltaisuussuhteen asetukset napsauttamalla ”OK”.Napsauta ”OK” aloittaaksesi nykyisen PDF-dokumentin kaksoissivujen etsimisen:Vaihe 4 – Tarkasta päällekkäiset sivut ”Poista päällekkäiset sivut” -valintaikkuna näyttää luettelon päällekkäisistä tai lähes päällekkäisistä sivuista. Napsauta sivutietuetta näyttääksesi vastaavan sivun katseluohjelmassa. Tutki sivuja ja valitse/ poista sivut poistettavaksi. Voit myös napsauttaa ”Save Report…” (Tallenna raportti…) luodaksesi sivun samankaltaisuusraportin HTML-muodossa. Tai napsauta ”Sivujen kirjanmerkki” luodaksesi kirjanmerkkejä PDF-muodossa valituille päällekkäisille sivuille.Liitännäisen avulla voit esikatsella/verrata löydettyjä päällekkäisiä tai lähes päällekkäisiä sivuja. Sivujen samankaltaisuus (prosentteina) ja yhteensopimattomien sanojen määrä näytetään kunkin sivuparin osalta. Seuraavassa on esimerkkejä, jotka on laskettu skannattujen paperiasiakirjojen parille:Huomaa, että tekstin ulkonäkö ja sijainti eivät vaikuta tuloksiin. Nämä kaksi sivua katsotaan identtisiksi tekstin värin erosta huolimatta:Nämä kaksi sivua katsotaan identtisiksi sisällön asettelun erosta huolimatta:Näitä kahta sivua pidetään 94-prosenttisesti samankaltaisina, vaikka tekstin järjestyksessä, ulkoasussa ja kuvan puuttumisessa on eroja:Vaihe 5 – Pura tai merkitse kirjanmerkkeihin päällekkäiset sivut Vaihtoehtoisesti voit merkitä kirjanmerkkeihin kaikki tarkistetut sivut ”Sivujen kirjanmerkki” -painikkeella. Tämä on hyödyllistä, jos et aio poistaa löydettyjä päällekkäisiä sivuja asiakirjasta. Käytä sivujen edessä olevia valintaruutuja valitaksesi tai poistaaksesi ne käsittelyjoukosta. Käytä ”Extract Pages….” -painiketta poistaaksesi kaikki tarkistetut sivut erilliseen PDF-dokumenttiin. Tämä toiminto ei poista sivuja nykyisestä asiakirjasta.
Käytä ”Tallenna raportti…” -painiketta tallentaaksesi sivun samankaltaisuuden laskentaraportin HTML-tiedostoksi. Se sisältää sivujen samankaltaisuustiedot, näyttää sivujen väliset erot ja listaa puuttuvat sanat. Se voi olla erittäin hyödyllinen perusteellisessa analyysissä.Vaihe 6 – Poista päällekkäiset sivut Käytä sivujen edessä olevia valintaruutuja valitaksesi tai poistaaksesi sivujen poistamisen. Paina ”Poista sivut” -painiketta ”Poista päällekkäiset sivut” -valintaikkunassa poistaaksesi kaikki tarkistetut sivut nykyisestä PDF-dokumentista:Vahvista painamalla ”OK”-painiketta. Sivut poistetaan pysyvästi.Menetelmä 2 – Vain visuaalisen ulkoasun vertailu yleiskatsaus Tämä menetelmä vertaa sivuja ”kuvina” ja havaitsee täsmälleen samannäköiset sivut. Tämä menetelmä ei vertaa sivulla mahdollisesti olevaa näkymätöntä tekstiä. Tätä menetelmää ei suositella käytettäväksi skannattuihin paperiasiakirjoihin. Vaihe 1 – PDF-tiedoston avaaminen Käynnistä Adobe® Acrobat® -sovellus ja avaa PDF-tiedosto ”File > Open…”-valikosta.Vaihe 2 – Avaa ”Etsi päällekkäiset sivut” -valintaikkuna Avaa ”Etsi päällekkäiset sivut” -valintaikkuna valitsemalla ”Plug-Ins > Split Documents > Find and Delete Duplicate Pages…”.Vaihe 3 – Asetusten määrittäminen Valitse ”Vertaa visuaalista ulkoasua tarkkaa vastaavuutta varten (voidaan käyttää kuvien vertailuun)” -vaihtoehto.Napsauta ”OK” aloittaaksesi päällekkäisten sivujen etsimisen. Vaihe 4 – Tarkasta päällekkäiset sivut ”Poista päällekkäiset sivut” -valintaikkuna näyttää luettelon päällekkäisistä tai lähes päällekkäisistä sivuista. Napsauta sivutietuetta näyttääksesi vastaavan sivun rinnakkaisnäkymässä. Tutki sivuja ja valitse tai poista sivut mahdollista poistamista varten.Napsauta vaihtoehtoisesti ”Save Report…” (Tallenna raportti…) luodaksesi sivujen samankaltaisuusraportin HTML-muodossa. Tai napsauta ”Sivujen kirjanmerkki” luodaksesi kirjanmerkkejä PDF-muodossa valituille päällekkäisille sivuille. Tämä menetelmä perustuu pienempien (otosmaisten) kopioiden luomiseen sivuista ja niiden vertailuun ”kuvina”. Seuraavassa esimerkissä on kaksi identtistä sivua, jotka sisältävät vain grafiikkaa eivätkä hakukelpoista tekstiä:Jos sivut ovat visuaalisesti identtisiä, ohjelmisto havaitsee ne kaksoiskappaleiksi:Näitä kahta sivua pidetään erilaisina, koska toisessa sivussa on ”Hyväksytty”-leima:Näitä kahta sivua pidetään identtisinä tällä menetelmällä:Toisin kuin tekstiin perustuvassa vertailumenetelmässä, jos tekstin väri tai tyyli on erilainen, sivuja ei pidetä samanlaisina:
Vaihe 5 – Poista päällekkäiset sivut Jatka napsauttamalla ”Poista sivut” -painiketta ”Poista päällekkäiset sivut” -valintaikkunassa. Napsauta ”OK”-painiketta poistaaksesi sivut nykyisistä PDF-asiakirjoista. Sivut poistetaan pysyvästi.Useiden PDF-asiakirjojen vertailu Tätä toimintoa voidaan käyttää päällekkäisten sivujen etsimiseen ja poistamiseen useista PDF-asiakirjoista. Lähestymistapa on yhdistää yksi tai useampi asiakirja yhdeksi PDF-tiedostoksi ja suorittaa ”Etsi ja poista päällekkäiset sivut” -operaatio tuloksena syntyvälle tiedostolle. Tämä tuottaa periaatteessa yhden asiakirjan, jossa ei ole päällekkäisiä sivuja. Vaihtoehtoisesti on mahdollista poimia kaikki havaitut päällekkäiset sivut erilliseen PDF-dokumenttiin. Vaihe 1 – Useiden PDF-dokumenttien yhdistäminen yleiskatsaus Käynnistä Adobe® Acrobat® -sovellus ja valitse valikosta ”Työkalut”. Valitse Työkalut-luettelosta ”Combine Files” -kuvake.Napsauta ”Add Files…” (Lisää tiedostoja…) ”Combine Files” (Yhdistä tiedostot) -valikossa ja valitse yhdistettävät PDF-tiedostot vertailua varten.Napsauta valikon ”Combine” -painiketta yhdistääksesi valitut PDF-tiedostot.Vaihe 2 – Etsi päällekkäiset sivut Yhdistetty lähtö PDF-tiedosto ilmestyisi näytölle. Jos näin ei ole, avaa yhdistetty PDF-tiedosto. Valitse ”Plug-Ins > Split Documents > Find and Delete Duplicate Pages…” (Liitännäisohjelmat > Asiakirjojen jakaminen > Etsi ja poista päällekkäiset sivut…) avataksesi ”Find Duplicate Pages” (Etsi päällekkäiset sivut) -ikkunan.Merkitse ”Compare visual appearance for exact match (can be used to compare images)” -vaihtoehto. Napsauta ”OK” aloittaaksesi päällekkäisten sivujen etsimisen.Vaihe 3 – Poista päällekkäiset sivut ”Poista päällekkäiset sivut” -valintaikkuna näyttää luettelon päällekkäisistä tai lähes päällekkäisistä sivuista. Napsauta sivutietuetta näyttääksesi vastaavan sivun katseluohjelmassa. Tutki sivuja ja valitse tai poista sivujen valinta. Napsauta ”Extract Pages…” poistaaksesi valitut päällekkäiset sivut uuteen PDF-dokumenttiin.Määritä tulostuskansio ja tiedostonimi. Napsauta ”Tallenna”, kun olet valmis.Näyttöön tulee valintaikkuna, jossa näkyy erilliseen asiakirjaan poimittujen sivujen määrä. Nyt olet tallentanut kaikki päällekkäiset sivut erilliseen PDF-tiedostoon ennen niiden poistamista. Voit tutkia näitä sivuja ja käyttää niitä myöhemmin tarvittaessa. Sulje valintaikkuna napsauttamalla ”OK”.Vaihe 4 – Poista päällekkäiset sivut Jatka napsauttamalla ”Poista sivut” ”Poista päällekkäiset sivut” -valintaikkunassa.Napsauta ”OK” valintaikkunassa poistaaksesi valitut päällekkäiset sivut nykyisestä PDF-dokumentista.Valitut päällekkäiset sivut poistetaan pysyvästi PDF-dokumentista. Sinun pitäisi käyttää ”Tiedosto > Tallenna”-valikkoa tallentaaksesi muutetun asiakirjan levylle. Klikkaa tästä saadaksesi luettelon kaikista saatavilla olevista vaiheittaisista opetusohjelmista.