Encontrar y eliminar páginas PDF duplicadas y casi duplicadas

Encontrar y eliminar páginas PDF duplicadas

Introducción Este tutorial muestra cómo encontrar y, opcionalmente, eliminar páginas similares o duplicadas dentro del mismo documento PDF utilizando el complemento AutoSplit™ para Adobe® Acrobat®. Esta operación detecta páginas similares y las presenta al usuario para que las revise. El usuario puede revisar los resultados y seleccionar/deseleccionar páginas individuales de la lista de duplicados para una posible eliminación o extracción. Puede realizar las siguientes operaciones:

Encontrar páginas duplicadas y casi duplicadas
Marcar las páginas duplicadas
Extraer las páginas duplicadas en un documento PDF separado
Eliminar las páginas duplicadas del documento
Guardar el informe de similitud de páginas

El complemento proporciona dos métodos diferentes para detectar páginas duplicadas o casi duplicadas: Comparar sólo el texto de la página Utilice este método para comparar el texto de la página independientemente de su aspecto visual. Calcula la similitud de la página basándose sólo en el contenido del texto e ignora completamente la apariencia del texto, el diseño, las imágenes y los gráficos que puedan estar presentes en la página. Es el mejor método para detectar duplicados en la mayoría de los tipos de documentos. Comparar la apariencia visual de las páginas Este método compara las páginas «como imágenes» y detecta las páginas que tienen exactamente el mismo aspecto. Este método no compara ningún texto invisible que pueda estar presente en la página. No se aconseja utilizar este método en documentos de papel escaneados. Utilización de documentos de papel escaneados Muy a menudo se utiliza esta operación para encontrar páginas duplicadas en los documentos de papel escaneados. Los documentos escaneados deben ser sometidos a un proceso de OCR antes de utilizarlos para cualquier procesamiento basado en texto. El OCR es un proceso de reconocimiento de texto en documentos escaneados y que permite realizar búsquedas en ellos. Es esencial entender que el reconocimiento de texto en los documentos escaneados es propenso a errores y rara vez es 100% preciso. El número de errores depende de la resolución de escaneado y de la calidad del documento original. En la mayoría de los casos, una página escaneada puede contener entre 1 y 10 errores de reconocimiento en los que ciertas letras se identifican incorrectamente. Por ejemplo, dependiendo del tipo de letra, la letra l minúscula puede parecer exactamente el número 1 . La letra O mayúscula suele identificarse erróneamente como el número 0, o la letra S mayúscula como el número 5, etc. Dado que muchos símbolos alfanuméricos comparten características físicas similares, o idénticas, la diferenciación suele suponer un reto. Por ello, una comparación basada en la similitud resulta útil para detectar pequeñas diferencias entre las páginas que se producen en el proceso de reconocimiento de texto. Los documentos escaneados de baja calidad pueden contener un gran número de errores que los hacen inutilizables para cualquier comparación fiable basada en texto. Consulte el siguiente tutorial sobre cómo realizar el reconocimiento óptico de caracteres de documentos escaneados y evaluar su idoneidad para el procesamiento basado en texto. . Requisitos previos Para poder utilizar este tutorial necesita una copia de Adobe® Acrobat® junto con el plug-in AutoSplit™ instalado en su ordenador. Puede descargar versiones de prueba tanto de Adobe® Acrobat® como del plug-in AutoSplit™. Contenido

Comparar sólo el texto de la página
Comparar sólo la apariencia visual
Comparar varios documentos

Método 1 – Comparar sólo el texto de la página descripción general Este método compara la similitud de las páginas sólo en función de su contenido. El aspecto visual, la posición del texto y el orden son irrelevantes. Este método también ignora las imágenes y los gráficos presentes en las páginas. Se utiliza la métrica de similitud del coseno modificada para calcular la similitud de dos páginas en función de su contenido textual. Paso 1 – Abrir un archivo PDF Inicie la aplicación Adobe® Acrobat® y abra un archivo PDF mediante el menú «Archivo > Abrir…».Paso 2 – Abrir el diálogo «Buscar páginas duplicadas» Seleccione «Plug-Ins > Dividir documentos > Buscar y eliminar páginas duplicadas…» para abrir el diálogo «Buscar páginas duplicadas».Paso 3 – Especificar la configuración Marque la opción «Comparar sólo el texto de la página (ignorar el aspecto visual de las páginas)».Uso de la configuración predefinida El método basado en texto proporciona una serie de conjuntos de parámetros predefinidos que son adecuados para comparar diferentes tipos de documentos con una cantidad diferente de errores de reconocimiento. Cada conjunto predefinido de parámetros proporciona diferentes condiciones para los cálculos de similitud:

Parámetros personalizados: todos los parámetros son especificados por el usuario
Documento de papel escaneado: Calidad alta
Documento de papel escaneado: Calidad media
Documento de fax: Calidad baja
PDF no escaneado: coincidencia exacta
PDF no escaneado: coincidencia difusa
Coincidencia exacta (con orden de texto) – este método no utiliza la similitud del coseno

Los ajustes aparecen debajo del menú después de seleccionar un conjunto de parámetros predefinidos.Aquí están los ajustes utilizados por los conjuntos predefinidos:Haga clic en «Editar…» para personalizar los ajustes de similitud de la página:El método de comparación de texto utiliza 3 parámetros para limitar lo diferentes que pueden ser dos páginas «similares». Variando estos parámetros, es posible detectar páginas que tienen un grado de similitud diferente.

Similaridad de texto de página mínima permitida (en porcentaje) – es el valor de la métrica de similitud del coseno expresado en porcentaje. Especifique la similitud mínima de texto de página permitida entre 70 y 100 (en porcentaje).
Diferencia de longitud de página máxima permitida (en caracteres).
Diferencia de texto de página máxima permitida (en palabras).

Utilice esta configuración para experimentar con los ajustes de procesamiento cuando sea necesario ajustar el algoritmo de procesamiento para un documento específico.Utilizar páginas de muestra Opcionalmente, haga clic en «Establecer a partir de la página de muestra…» para especificar los ajustes de similitud de la página basados en las dos páginas de muestra:Seleccione dos páginas que puedan considerarse idénticas. El software calculará automáticamente la similitud de las páginas y las estadísticas aparecerán en la esquina inferior izquierda del diálogo. Haga clic en «Aceptar» para guardar la configuración actual de la similitud.Especificar opciones de filtrado de texto Hay varios parámetros que controlan el contenido de la página que está siendo analizado por el algoritmo de comparación de texto. Utilice estas opciones cuando compare documentos de papel escaneados que puedan contener varios errores de reconocimiento de texto. Estas opciones excluyen cierto tipo de caracteres del procesamiento. En muchos casos, puede ayudar a calcular una métrica de similitud más precisa.

Ignorar mayúsculas y minúsculas: esta opción ignora las mayúsculas y minúsculas al comparar el texto.
Ignorar puntuación (,.!?-): esta opción excluye todos los caracteres de puntuación de la comparación.
Ignorar caracteres no alfanuméricos: esta opción ignora todos los caracteres excepto las letras y los dígitos.

Haga clic en «Aceptar» para guardar la configuración de la similitud de las páginas.Haga clic en «Aceptar» para empezar a buscar las páginas duplicadas en el documento PDF actual:Paso 4 – Inspeccionar las páginas duplicadas El cuadro de diálogo «Eliminar páginas duplicadas» muestra una lista de páginas duplicadas o casi duplicadas. Haga clic en un registro de página para mostrar la página correspondiente en el visor. Examine las páginas y seleccione/deseleccione las páginas para eliminarlas. Opcionalmente, haga clic en «Guardar informe…» para crear un informe de similitud de páginas en formato HTML. O haga clic en «Marcar páginas» para crear marcadores en PDF para las páginas duplicadas seleccionadas.El complemento permite previsualizar/comparar las páginas duplicadas o casi duplicadas encontradas. Se muestra la similitud de las páginas (en %) y el número de palabras que no coinciden para cada par de páginas. Estos son los ejemplos calculados para el par de documentos de papel escaneados:Tenga en cuenta que la apariencia y la ubicación del texto no afectan a los resultados. Estas dos páginas se consideran idénticas a pesar de la diferencia en el color del texto:

Estas dos páginas se consideran idénticas a pesar de la diferencia en la disposición del contenido:Estas dos páginas se consideran 94% similares a pesar de la diferencia en el orden del texto, la disposición y la ausencia de la imagen:Paso 5 – Extraer o marcar las páginas duplicadas Opcionalmente, utilice el botón «Marcar páginas» para marcar todas las páginas marcadas. Esto es útil si no piensa eliminar del documento las páginas duplicadas encontradas. Utilice las casillas de verificación delante de las páginas para seleccionarlas/deseleccionarlas del conjunto de procesamiento. Utilice el botón «Extraer páginas….» para extraer todas las páginas marcadas en un documento PDF separado. Esta operación no eliminará las páginas del documento actual.Utilice el botón «Guardar informe…» para guardar el informe de cálculo de similitud de páginas en un archivo HTML. Contiene detalles de similitud de páginas, muestra las diferencias entre las páginas y enumera las palabras que faltan. Puede ser muy útil para el análisis en profundidad.Paso 6 – Eliminar páginas duplicadas Utilice las casillas de verificación situadas delante de las páginas para seleccionar/deseleccionar las páginas a eliminar. Pulse el botón «Eliminar páginas» en el diálogo «Eliminar páginas duplicadas» para eliminar todas las páginas marcadas del documento PDF actual:Pulse el botón «Aceptar» para confirmar. Las páginas se eliminarán de forma permanente.Método 2 – Comparación de la apariencia visual solamente resumen Este método compara las páginas «como imágenes» y detecta las páginas que tienen exactamente el mismo aspecto. Este método no compara ningún texto invisible que pueda estar presente en la página. No se aconseja utilizar este método en documentos de papel escaneados. Paso 1 – Abrir un archivo PDF Inicie la aplicación Adobe® Acrobat® y abra un archivo PDF mediante el menú «Archivo > Abrir…».Paso 2 – Abrir el diálogo «Buscar páginas duplicadas» Seleccione «Plug-Ins > Dividir documentos > Buscar y eliminar páginas duplicadas…» para abrir el diálogo «Buscar páginas duplicadas».Paso 3 – Especifique la configuración Marque la opción «Comparar la apariencia visual para la coincidencia exacta (puede utilizarse para comparar imágenes)».Haga clic en «Aceptar» para iniciar la búsqueda de páginas duplicadas. Paso 4 – Inspeccionar las páginas duplicadas El cuadro de diálogo «Eliminar páginas duplicadas» muestra una lista de páginas duplicadas o casi duplicadas. Haga clic en un registro de página para mostrar la página correspondiente en la vista de lado a lado. Examine las páginas y seleccione/deseleccione las páginas para una posible eliminación.

Opcionalmente, haga clic en «Guardar informe…» para crear un informe de similitud de páginas en formato HTML. O haga clic en «Marcar páginas» para crear marcadores en PDF para las páginas duplicadas seleccionadas. Este método se basa en la creación de copias más pequeñas (de muestra) de las páginas y su comparación «como imágenes». El siguiente ejemplo muestra dos páginas idénticas que sólo contienen gráficos y ningún texto para buscar:Si las páginas son visualmente idénticas, el software las detecta como duplicados:Estas dos páginas se consideran diferentes debido al sello «Aprobado» en una de las páginas:Estas dos páginas se consideran idénticas por este método:A diferencia del método de comparación basado en el texto, si el color o el estilo del texto es diferente, entonces las páginas no se consideran idénticas:Paso 5 – Eliminar páginas duplicadas Haga clic en «Eliminar páginas» en el cuadro de diálogo «Eliminar páginas duplicadas» para continuar. Haga clic en el botón «Aceptar» para eliminar las páginas de los documentos PDF actuales. Las páginas se eliminarán de forma permanente.Comparación de múltiples documentos PDF Esta operación se puede utilizar para encontrar y eliminar las páginas duplicadas de los múltiples documentos PDF. El enfoque consiste en combinar uno o más documentos en un solo archivo PDF y ejecutar la operación «Buscar y eliminar páginas duplicadas» en el archivo resultante. Esto producirá esencialmente un único documento sin duplicados. Opcionalmente, es posible extraer todas las páginas duplicadas detectadas en un documento PDF separado. Paso 1 – Combinar varios documentos PDF general Inicie la aplicación Adobe® Acrobat® y seleccione «Herramientas» en el menú. Seleccione el icono «Combinar archivos» de la lista de Herramientas.Haga clic en «Añadir archivos…» en el menú «Combinar archivos» y seleccione los archivos PDF que desea combinar para compararlos.Haga clic en el botón «Combinar» en el menú para fusionar los archivos PDF seleccionados.Paso 2 – Buscar páginas duplicadas El archivo PDF de salida combinado aparecería en la pantalla. Si no es así, abra el archivo PDF combinado. Seleccione «Complementos > Dividir documentos > Buscar y eliminar páginas duplicadas…» para abrir el cuadro de diálogo «Buscar páginas duplicadas».Marque la opción «Comparar el aspecto visual para obtener una coincidencia exacta (puede utilizarse para comparar imágenes)». Haga clic en «Aceptar» para iniciar la búsqueda de páginas duplicadas.Paso 3 – Extraer las páginas duplicadas El cuadro de diálogo «Eliminar páginas duplicadas» mostrará una lista de páginas duplicadas o casi duplicadas. Haga clic en un registro de página para mostrar la página correspondiente en el visor. Examine las páginas y seleccione/deseleccione las páginas. Haga clic en «Extraer páginas…» para extraer las páginas duplicadas seleccionadas en un nuevo documento PDF.Especifique una carpeta de salida y un nombre de archivo. Haga clic en «Guardar» una vez hecho.El cuadro de diálogo aparecerá mostrando el número de páginas que se han extraído en un documento separado. Ahora ha guardado todas las páginas duplicadas en el archivo PDF separado antes de eliminarlas. Puede examinar estas páginas y utilizarlas más tarde si es necesario. Haga clic en «Aceptar» para cerrar el diálogo.Paso 4 – Eliminar páginas duplicadas Haga clic en «Eliminar páginas» en el diálogo «Eliminar páginas duplicadas» para proceder.Haga clic en «Aceptar» en el cuadro de diálogo para eliminar las páginas duplicadas seleccionadas del documento PDF actual.Las páginas duplicadas seleccionadas se eliminarán permanentemente del documento PDF. Tendría que utilizar el menú «Archivo > Guardar» para guardar el documento modificado en el disco. Haga clic aquí para ver una lista de todos los tutoriales paso a paso disponibles.

Deja una respuesta Cancelar la respuesta