Errores · Anonimización

10 errores frecuentes al anonimizar PDFs manualmente

Mayo 2026 · Lectura: ~10 min

La mayoría de las fugas de datos en documentos PDF no ocurren por descuido al elegir qué proteger, sino por cómo se ejecuta la protección. Alguien decide correctamente que el nombre y el DNI deben desaparecer, dibuja un recuadro negro encima y envía el archivo convencido de que el trabajo está hecho. No lo está: el dato sigue dentro del fichero, recuperable en segundos.

El origen de casi todos estos fallos es el mismo malentendido: tratar el PDF como una hoja de papel cuando en realidad es una estructura por capas donde lo que se ve en pantalla y lo que contiene el archivo son cosas distintas. Tapar afecta a lo que se ve; anonimizar exige actuar sobre lo que el archivo contiene. Estos son los diez errores que más veces convierten una anonimización aparente en una brecha real, y cómo evitarlos.

Si todavía dudas de la diferencia entre ocultar y eliminar de verdad, conviene leer antes cómo anonimizar un PDF automáticamente y la distinción entre seudonimización y anonimización según el RGPD.

Los 10 errores y por qué fallan

Están ordenados de más común y evidente a más sutil. Los primeros se ven a simple vista; los últimos solo se detectan cuando alguien —un perito, un periodista o la propia AEPD— se molesta en mirar debajo.

La caja negra que no borra nada

Es el error universal: dibujar un rectángulo negro encima del nombre con el editor de PDF y dar por hecho que el dato ha desaparecido. No ha desaparecido. El rectángulo es un gráfico colocado sobre una capa que sigue conteniendo el texto íntegro. Cualquiera selecciona el área, copia al portapapeles y obtiene el nombre completo; o elimina el gráfico y lo descubre debajo; o extrae el texto del PDF con una utilidad gratuita en dos segundos. Un PDF no es una hoja de papel sobre la que tachas con rotulador: es una estructura por capas donde lo que ves y lo que contiene el archivo son cosas distintas.

Cambiar el color del texto a negro o usar el resaltador

Variante más sutil del error anterior. Seleccionar el texto y ponerlo en negro sobre fondo negro, o pasarle un resaltador negro, hace que el dato sea invisible en pantalla pero perfectamente presente en el documento: la búsqueda con Ctrl+F lo encuentra, la extracción de texto lo devuelve y un lector de PDF distinto puede renderizarlo con otro contraste. Ocultar visualmente nunca es anonimizar.

Dejar los metadatos del archivo intactos

Aunque el cuerpo del documento esté perfectamente depurado, el PDF arrastra una capa de metadatos invisible: campo «Autor», «Título», software de creación, ruta del archivo original, fechas y, a veces, el nombre del expediente o del cliente en las propiedades del documento. Es habitual que un escrito anonimizado conserve en «Autor» el nombre del abogado y en la ruta incrustada algo como «C:\Clientes\García Pérez\demanda.docx». La anonimización del contenido no toca esa capa salvo que la depures expresamente.

Ignorar comentarios, anotaciones y campos de formulario

Las notas adhesivas, los comentarios de revisión, las marcas de control de cambios y los campos de formulario rellenados son objetos independientes del texto principal. Un PDF puede mostrar el cuerpo limpio y conservar en una anotación oculta «confirmar DNI del cliente: 12345678Z» o un campo de formulario con el IBAN ya introducido. Quien revisa solo el flujo de lectura no llega a ver esas capas.

No aplanar el PDF antes de exportar

Aplanar («flatten») fusiona todas las capas, formularios y anotaciones en una sola capa estática. Si exportas sin aplanar, los objetos siguen siendo entidades separadas y reversibles: el destinatario puede mover un sello, vaciar un campo o reordenar capas y dejar a la vista lo que creías eliminado. La redacción manual a menudo se queda a medias precisamente por saltarse este paso.

Confiar en el guardado incremental del PDF

El formato PDF guarda los cambios de forma incremental: al pulsar «Guardar» no reescribe el archivo, añade las modificaciones al final y conserva el estado anterior dentro del mismo fichero. Eso significa que un PDF «anonimizado» con guardado normal puede contener todavía la versión previa con los datos visibles, recuperable con herramientas forenses básicas. Hay que usar «Guardar como» con sanitización u optimización que reescriba el archivo por completo, no un guardado encima del original.

Tratar los anexos escaneados como si fueran texto

Una vida laboral, un certificado o un DNI escaneado no son texto: son una imagen. Tapar con un recuadro la zona del nombre en una imagen incrustada no la elimina, solo la cubre con otro objeto; y si el escaneado lleva una capa OCR por debajo, el texto reconocido sigue siendo extraíble. Anonimizar un anexo escaneado exige actuar sobre el píxel de la imagen y sobre su capa OCR, no superponer un gráfico. Los anexos son la fuente número uno de fugas en documentos jurídicos.

Anonimización inconsistente: el dato aparece más de una vez

El nombre del cliente no está solo en el encabezamiento. Reaparece en el pie de página, en el índice, en el «suplico», en una cita dentro de los hechos, en el nombre de un archivo adjunto y en los marcadores del PDF. Tachar la primera aparición y dar el trabajo por terminado deja el dato accesible en las demás. La anonimización tiene que ser exhaustiva en todo el documento, incluidos sus elementos de navegación, o no es anonimización.

Olvidar los cuasi-identificadores y reidentificar por contexto

Suprimir el nombre y el DNI no basta si quedan datos que, combinados, identifican igualmente: una fecha de nacimiento, una localidad pequeña, una profesión poco común, el número de expediente, fechas concretas de un procedimiento. Esto es seudonimización, no anonimización, y sigue sometido al RGPD. La anonimización efectiva, según el considerando 26 del RGPD, exige que la persona no sea reidentificable «por medios razonables»; los cuasi-identificadores son justo el medio razonable que se suele pasar por alto.

No verificar ni documentar el resultado

El último error es no comprobar lo hecho. Antes de entregar el documento hay que intentar romperlo: seleccionar y copiar las zonas redactadas, buscar el dato con Ctrl+F, extraer el texto con otra herramienta, abrirlo en un lector distinto, revisar metadatos y propiedades. Y registrar qué se anonimizó, cuándo, con qué método y para qué destino: el principio de responsabilidad proactiva (Art. 5.2 RGPD) obliga a poder demostrarlo si la AEPD inspecciona o un interesado reclama.

Comparación entre un PDF con un recuadro negro superpuesto, del que se recupera el texto, y un PDF con eliminación estructural en el que el dato ya no existe en el archivo. — A la vista los dos documentos parecen igual de protegidos. La diferencia está en la estructura interna: solo en uno el dato ha dejado de existir dentro del archivo.

Por qué estos errores son un problema legal, no solo técnico

El considerando 26 del RGPD establece que un dato está anonimizado solo cuando la persona ya no es identificable «por medios razonables». Un recuadro negro que se quita con un clic, unos metadatos con el nombre del cliente o unos cuasi-identificadores que permiten deducir quién es no superan ese umbral: el documento sigue conteniendo datos personales y todo el RGPD le sigue aplicando.

La AEPD ha sancionado en repetidas ocasiones la difusión de documentos «anonimizados» de los que se recuperaban los datos —escritos judiciales, resoluciones y expedientes publicados con cajas negras reversibles o metadatos intactos—. Y el principio de responsabilidad proactiva del Art. 5.2 RGPD invierte la carga: no basta con haberlo hecho razonablemente bien, hay que poder demostrarlo. Por eso el error nº 10, no verificar ni documentar, es tan grave como el nº 1.

En el contexto jurídico esto se agrava porque los escritos concentran categorías especiales del Art. 9 RGPD en sus anexos. Para el detalle de qué suprimir bloque por bloque, ver datos personales en escritos judiciales.

¿Sigues tachando PDFs a mano?

AnonDocs aplica eliminación estructural sobre el texto, los metadatos y los anexos escaneados, detecta cada aparición del dato en todo el documento y deja registro del proceso. Sin cajas negras reversibles.

Ver cómo funciona

Redacción manual vs eliminación estructural automatizada

La redacción manual puede ser correcta si se ejecutan todos los pasos sin saltarse ninguno; el problema es que basta con olvidar uno para que el documento siga siendo una fuga. La automatización no es «mejor» por rapidez, sino por sistematizar los pasos que el operador olvida bajo presión.

Aspecto	Redacción manual	Eliminación estructural automatizada
Texto subyacente	Persiste bajo el recuadro salvo que se use la función de redacción del editor.	Se elimina de la estructura interna del archivo (eliminación estructural).
Metadatos y propiedades	Se olvidan casi siempre; requieren un paso manual aparte.	Se depuran en el mismo proceso (autor, rutas, historial).
Anexos escaneados	Se tapan con un gráfico; el píxel y la capa OCR siguen ahí.	OCR + supresión sobre la imagen y la capa de texto reconocido.
Exhaustividad	Depende de que el operador localice todas las apariciones.	Detección sistemática de cada ocurrencia en todo el documento.
Trazabilidad	Registro manual, frecuentemente inexistente.	Registro automático de qué se suprimió y cuándo.
Coste por documento	Alto en tiempo y muy variable según la pericia de quien lo hace.	Constante y bajo, escalable a volumen.

Para una comparativa de herramientas y criterios de elección, ver software para anonimizar documentos.

Preguntas frecuentes

¿Por qué el rectángulo negro sobre un nombre no anonimiza el PDF?

Porque el rectángulo es un objeto gráfico que se coloca sobre una capa que sigue conteniendo el texto íntegro. El dato no se ha eliminado del archivo: se ha tapado visualmente. Basta seleccionar y copiar el área, borrar el gráfico o extraer el texto del PDF con una utilidad básica para recuperar el nombre completo. La anonimización válida elimina los caracteres de la estructura interna del documento, no los cubre.

¿Tachar a mano un PDF cumple el RGPD?

Puede cumplir si se hace correctamente —usando la función de redacción real del editor, depurando metadatos, aplanando y verificando—, pero en la práctica la redacción manual acumula errores: caja negra reversible, metadatos olvidados, anexos escaneados solo tapados o apariciones del dato sin localizar. Si el resultado permite reidentificar a la persona por cualquier medio razonable, no se ha cumplido el RGPD y la AEPD ha sancionado por ello.

¿Qué es la eliminación estructural y en qué se diferencia de tapar el texto?

La eliminación estructural suprime los caracteres del dato de la propia estructura interna del PDF, de modo que ya no existen en el archivo: no se pueden copiar, buscar ni extraer. Tapar el texto añade un objeto encima dejando el dato intacto debajo. La diferencia es la que separa una anonimización defendible de una brecha de seguridad disfrazada.

¿Los metadatos de un PDF cuentan como datos personales?

Sí, cuando contienen información que identifica o permite identificar a una persona: el nombre en el campo «Autor», la ruta «C:\Clientes\Apellido\…», el nombre del expediente o las fechas asociadas a un interesado concreto. Un documento con el cuerpo perfectamente redactado pero con esos metadatos intactos sigue siendo una fuga de datos personales.

¿Cómo verifico que un PDF está realmente anonimizado?

Intentando romperlo antes de entregarlo: selecciona y copia las zonas redactadas, busca el dato con Ctrl+F, extrae el texto con otra herramienta distinta del editor usado, abre el archivo en un lector diferente, revisa propiedades y metadatos y comprueba comentarios, anotaciones y campos de formulario. Si ninguna de esas vías devuelve el dato, la anonimización es sólida; documenta el proceso para poder acreditarlo.

Conclusión

Casi ninguno de estos diez errores es un fallo de criterio jurídico: son fallos de ejecución sobre un formato que casi nadie conoce por dentro. El operador decide bien qué proteger y, aun así, el dato sobrevive porque se tapó en vez de eliminarse, porque seguía en los metadatos o porque aparecía una segunda vez tres páginas más abajo.

La regla que resume las diez: ocultar visualmente nunca es anonimizar. Mientras el dato exista en algún lugar del archivo —capa de texto, metadatos, anotación, anexo escaneado, versión incremental— el documento sigue conteniendo datos personales y la responsabilidad sigue siendo del despacho. Eliminación estructural en todas las capas, exhaustiva en cada aparición, y verificación documentada: ese es el estándar que resiste una inspección.

Para profundizar: cómo anonimizar un PDF automáticamente y la guía sectorial de anonimización para despachos y abogados.

Deja de tapar y empieza a eliminar

AnonDocs detecta y elimina estructuralmente nombres, DNIs, IBANs, datos de salud y direcciones en PDFs jurídicos, incluidos anexos escaneados y metadatos. IA entrenada en español jurídico-administrativo.

Probar AnonDocs