El Data Masking: La Nueva Necesidad

Cada vez más la información y los datos tienen un mayor valor para las compañías, por ello garantizar su seguridad y la protección de los mismos cobra un valor significativo; esto es debido a que se ha convertido en un factor principal de control en las empresas, pues con las políticas de tratamiento de datos y los programas integrales de gestión de protección de datos personales, se hace indispensable actuar sobre estos elementos; en nuestro caso, en Colombia, hacerlo nos permite cumplir con la ley 1581 de 2012.

Siendo así, es clara la razón por la que las organizaciones adoptan medidas estrictas para proteger los datos confidenciales en ambientes de producción, sin embargo, esto también debe ser así en los ambientes no productivos como los de desarrollo, pruebas y capacitación, pues normalmente allí también se tiene acceso a datos reales, lo cual presenta un riesgo mayor que en los ambientes de producción, pues no siempre estos procesos se realizan de manera interna y los  datos están en manos de terceros, de los cuales no conocemos su verdadera intensión acerca del manejo de la información que allí se trabaja y cómo puedan manejarla de manera malintencionada, no obstante, esto no significa que al interior de la organización no pueda suceder.

Así las cosas, el Data Masking o enmascaramiento de datos se ha ido fortaleciendo y abriendo camino en las empresas, pues su fin es proteger la información sensible y privada de la misma, velando por la seguridad de los datos de la organización por medio de la desidentificación de estos, sin perder la lógica realista y funcional (propiedades inherentes como formato, ancho, rango) que necesitan estos ambientes no productivos para poderlos operar.

Entre los beneficios que el Data Masking nos otorga se encuentran:

  • Tiene en cuenta la necesidad de mantener la naturaleza original de los datos y preservar la integridad referencial de los mismos.
  • Mantiene una pista de auditoría.
  • Disminuye el riesgo de la violación de datos sensibles y los protege.
  • Previene accesos no autorizados y aporta a la privacidad de datos.
  • Elimina el riesgo de perjudicar la reputación de las personas y/o de la empresa.
  • Simplifica la gestión de los datos de prueba.
  • Mejora la seguridad de los entornos de desarrollo, prueba y capacitación.

El enmascaramiento de datos es una tarea ardua, entre más bases de datos con más información y tablas interdependientes, su complejidad va aumentando, no obstante, se tienen diversas técnicas y algoritmos que optimizan el tiempo, entre las principales:

  • Sustitución: Consiste en reemplazar un campo sensible con un valor generado de forma aleatoria y sujeto a diversas restricciones para mantener su apariencia realista.
  • Enmascaramiento de las Claves: Consiste en proteger las contraseñas de los portales financieros, bancos, etc.
  • Anulación: Se trata de reemplazar una columna de datos con un valor nulo.
  • Blurring(Disimular): Consiste en realizar una variación aleatoria al valor real.
  • Enmascaramiento Repetible: Se generan valores repetibles y únicos que mantienen la esencia referencial del dato.

Se sugiere usar Data Masking cuando se cumplen algunas de las siguientes condiciones de riesgo que se deben intervenir:

  • Cuando se realizan varias copias de producción para pruebas, capacitación, análisis, entre otros.
  • Cuando varias personas o alguna área tienen acceso especial e ilimitado a datos sensibles.
  • Cuando se cuenta con la participación de proveedores que tienen acceso a la información.

En este tipo de casos, la recomendación es validar y definir la información que es sensible y a la cual hay que realizarle el enmascaramiento de datos, por ejemplo, información de identificación o contacto personal, información financiera como tarjetas de crédito, información personal no pública, información confidencial de la empresa, entre otros.

Enmascaramiento de datos Vs Generación de datos

Ahora bien, existen en el mercado varias herramientas de generación de datos sintéticos o TDM (Test Data Management – Gestión de Datos de Prueba). Las herramientas TDM actuales están equipadas para automatizar la creación de datos sintéticos basados en los modelos de datos. Sin embargo, debido a la complejidad inherente de los datos que se requieren para garantizar una buena prueba de extremo a extremo, para que los datos sean deben ser:

  • Un conjunto representativo, que comprende todos los tipos posibles de escenarios de producción.
  • Referencialmente íntegros, donde los datos creados deben estar presentes en las tablas relacionadas dentro del modelo de datos. Por ejemplo, cuando las transacciones se crean sintéticamente, la información del cliente correspondiente debe estar presente en las tablas de clientes y los productos facturados en la transacción deben estar presentes en las tablas de productos.
  • Compuesto como escenarios de negocios: las combinaciones incorrectas creadas dentro de las fuentes de datos podrían generar problemas durante la prueba, lo que retrasaría el ciclo de QA cuando se pasa tiempo evaluando si un problema se debió a datos o un defecto de la aplicación.
  • Acordes con el procesamiento natural que se produce en los datos cuando se procesan durante un flujo de extremo a extremo.

Por lo tanto, si bien es fácil crear datos sintéticos para las pruebas unitarias, hacerlo correctamente para las pruebas integradas requiere un esfuerzo mayor y conocimientos completos del negocio y la aplicación.

La realización de pruebas con datos producto de los procesos de data masking no conllevan estos esfuerzos adicionales, debido a que estos son generados en los procesos naturales del negocio y tomados de los ambientes de producción. Siendo una muestra representativa a la cual se le aplican reglas de transformación con el fin de proteger los datos sensibles.

En GreenSQA como especialistas en el aseguramiento de negocios y expertos en pruebas de software, venimos analizando y estableciendo este proceso con nuestra área de Tecnología e Investigación Aplicada en una de sus líneas de innovación, y como una de las acciones que disfrutamos es compartir conocimiento con nuestra comunidad, lo ponemos a su disposición, esperando que seamos claros en la real necesidad en la que se ha convertido este proceso y la relevancia que presenta para las organizaciones, hoy más que nunca.