Los peligros de demasiada información 🗒️

demasiada información

A mucha gente le encanta un buen bocadillo de jamón. Muchos, pero no todos. 

Para algunos, es una cuestión de gusto o un rechazo de todas las carnes por motivos éticos, ambientales o espirituales. A menudo es simplemente una aversión a los peligros para la salud a largo plazo asociados con los alimentos ultraprocesados, incluidas las carnes curadas. Cuando se trata de elección de alimentos, como en la mayoría de las cosas, todos caminamos en la línea entre el ahora y el futuro, entre nuestros principios y nuestros placeres.

Navegar entre recompensas reactivas e intereses a largo plazo también es común en muchas empresas modernas. A menudo es una cuestión de equilibrar entre satisfacer las necesidades comerciales inmediatas y estar atento a los objetivos finales o aprovechar el momento mientras nos aseguramos de que avanzamos hacia nuestros objetivos. 

¿Deberíamos utilizar todos los datos que tenemos disponibles? Dadas las presiones regulatorias y de gobernanza, necesitamos cada vez más saber de dónde provienen nuestros datos, cómo se procesaron y quién los creó. ¿Es seguro, es de alta calidad? ¿Cuánto podemos almacenar? ¿Con quién podemos compartirlo?

Tres cualidades de los buenos datos

  1. Es inteligente. Los datos deben tener contexto y etiquetas que ayuden a darle sentido.
  2. Está limpio. El conjunto de datos que está optimizando debe estar completamente libre de señales basadas en la actividad del bot.
  3. Tiene un propósito. Los datos deben ser exactos y completos y además tener una finalidad.

Más datos no significa mejores datos 

La ciencia de la toma de decisiones nos dice que tener algunos datos es generalmente mejor que no tenerlos. Una vez, un investigador realizó un estudio en el que a un grupo de jugadores profesionales se les proporcionaba cada vez más datos mientras medían continuamente la precisión de sus apuestas. 

Lo que descubrieron fue que tener algunos datos es generalmente mejor que no tenerlos. Pero después de cierto punto, darle más datos a un jugador en realidad disminuirá la precisión de sus apuestas, no la aumentará (Slovic y Lichtenstein 1973). 

Esto se debe en gran medida a lo que se puede denominar relación señal-ruido. En cualquier conjunto de datos, hay una señal (información importante a la que debes prestar atención) y un ruido (información que distrae y sin sentido). Como regla general, más datos significa más ruido, no más señal. Si hay demasiado, su calidad y utilidad pueden volverse cuestionables.

Los datos no administrados e inexactos pueden poner en peligro a los consumidores 

El ejemplo perfecto de cómo el uso ilimitado de big data puede salir mal se encuentra en la historia de James y Theresa Arnold.

El condado de Butler, Kansas, contiene el centro geográfico calculado de los 48 estados de la masa continental principal que son los Estados Unidos. Es Bullseye USA para los fanáticos de los datos y los mapas.

Los Arnold se mudaron a su granja de 623 acres en el condado de Butler, Kansas, en marzo de 2011. Durante los años siguientes, recibieron innumerables visitas de autoridades encargadas de hacer cumplir la ley que investigaban una serie de delitos. El fraude fiscal, el robo de coches, las tarjetas de crédito robadas e incluso la producción ilícita de películas pornográficas estaban todos relacionados con esta granja del condado de Butler. O ese lugar fue una ola de crímenes en una sola granja, que implicó una horrible concentración de eventos, o un error sistemático llevó a que esta familia fuera interrogada falsamente. 

Fue esto último, gracias a una empresa de análisis de geolocalización IP. Estas empresas almacenan, procesan y ayudan a conectar direcciones IP a conjuntos de datos más amplios. Específicamente, proporcionan coordenadas geográficas para direcciones IP. Dales una dirección IP y te dirán dónde está registrada oficialmente. En la mayor parte.

Pero las direcciones IP pueden ser fuentes de información poco fiables. Las empresas de análisis de geolocalización conocen los entresijos de la clasificación geográfica de direcciones IP. Cada vez que encuentran direcciones IP que parecen particularmente problemáticas de identificar, las colocan en un contenedor digital. Ese cubo simplemente está etiquetado como el centro geográfico exacto de los Estados Unidos (o un conjunto conveniente de coordenadas cerca de ese centro). 

Cada vez que un delincuente experto en tecnología enmascaraba una dirección IP, la empresa clasificaba la actividad en consecuencia. La ubicación de esa granja del condado de Butler aparecía en la base de datos, que luego era consultada por las autoridades, con las consiguientes visitas y redadas a la granja inocente, día y noche. Esto continuó durante 15 años hasta que la familia emprendió acciones legales.

Los datos no controlados pueden provocar riesgos de privacidad 

La privacidad del usuario y la seguridad de los datos se han convertido en temas centrales para la industria de la medición digital. Monitorear y rastrear los comportamientos de los usuarios es cada vez más insostenible y los enfoques existentes que rastrean, monitorean o toman huellas dactilares se verán cada vez más desafiados en materia de privacidad.

El desafío para la mayoría de las empresas es que el tipo y la naturaleza de los datos que pueden considerarse personales son una bestia fluida y en expansión. Ya no se limita sólo a direcciones de correo electrónico o identificadores personales definitivos, sino a cosas que se pueden combinar con otros conjuntos de datos para crear un perfil. La recopilación y el uso de las propias direcciones IP, un subproducto natural de la mayoría de las campañas de publicidad digital, está cada vez más en la mira de los reguladores.

A medida que los reguladores amplían sus regulaciones de privacidad, cualquier empresa que no filtre y administre sus conjuntos de datos recopilados, comprados y prestados correrá el riesgo de recibir multas, daños a su reputación y más. La reciente multa de 1.200 millones de euros a Facebook es el gran ejemplo más reciente.

Más datos incorrectos entrantes significan más información errónea  

Todos estamos presenciando el nacimiento de herramientas populares de IA generativa.  ChatGPT se está convirtiendo en una de las aplicaciones de consumo de más rápido crecimiento y está encontrando usos cotidianos en muchas áreas comerciales.

Según algunos (incluidos algunos gobiernos de Europa), también está facilitando el suministro de información inexacta o engañosa, al mismo tiempo que no notifica a los usuarios sobre sus prácticas de recopilación de datos y no cumple con ninguna de las justificaciones a nivel del RGPD para el procesamiento de datos personales. 

Esto dejará a muchas empresas expuestas a riesgos legales que apenas están surgiendo. Además, dará prioridad a los procesos de negocio que gestionan y filtran los datos entrantes generados por la IA en los que se confía para la toma de decisiones fundamentales. La capacidad de la mayoría de las empresas para determinar qué es falso y qué es real en algunos sectores, como el de la publicidad, ya era un desafío. 

Determinar la seguridad de la marca y la idoneidad del entorno se vuelve más difícil a medida que el ruido supera a la señal. Imagine un mundo donde la mayoría de los datos e imágenes se generan mediante IA. Si hasta la fecha pensábamos que Internet era el Salvaje Oeste, ahora estamos al borde de una verdadera fiebre por la tierra en Oklahoma.

Más datos procesados ​​afectan el medio ambiente

La nube ahora se utiliza para describir cualquier almacenamiento e informática de datos remotos. Es ingrávido e intencionalmente vago: tus datos están en algún lugar, en un lugar mejor, donde puedes olvidarlos. Está en marcado contraste con la realidad industrial de millones de servidores remotos, a veces escondidos bajo tierra en centros de datos que son gigantescos, ruidosos y requieren enormes cantidades de energía. Podemos imaginar la nube digital como algo sin lugar, silencioso, etéreo y sin mediaciones. Sin embargo, la realidad de la nube está plasmada en miles de estos enormes centros de datos.

El planeta contiene más de siete millones de centros de datos de este tipo, cada uno de los cuales puede consumir tanta electricidad como una ciudad de tamaño mediano. También son, en particular, los mayores contribuyentes a las emisiones de carbono en la TI global.

Según algunas estimaciones, los centros de datos de todo el mundo utilizan más del 2 por ciento de la electricidad mundial y generan el mismo volumen de emisiones de carbono que la industria aérea mundial (en términos de consumo de combustible).

La solución al exceso de datos

La solución es priorizar datos de calidad durante un período prolongado frente a big data en un período corto. La calidad y el tiempo separan la señal del ruido. Siempre que sea posible, se deben buscar datos que sean granulares, seguros para la privacidad y de amplia cobertura. Debe ser inteligente, limpio y decidido:

Elegante. Los datos deben tener contexto. Tiene que tener etiquetas que ayuden a darle sentido. Los números desnudos son datos que no tienen contexto ni sentido. Los números desnudos están omnipresentes en la publicidad digital y contaminan el ecosistema. Francamente, hay muchas convenciones de nomenclatura y sistemas de etiquetado por todas partes. Las empresas que obtienen buenos resultados aplican estrictas convenciones de nomenclatura y alientan a sus socios tecnológicos a hacer lo mismo.

Limpio. Dado que la mitad del ecosistema digital está impulsado por bots y cada vez más equipado con IA, debe haber una garantía de que el conjunto de datos que se está optimizando esté completamente libre de señales basadas en la actividad de los bots. 

Útil. Los datos no sólo deben ser precisos y completos, sino que también deben tener un propósito. En el nivel más básico, el propósito de un conjunto de datos depende de quién paga por él. Pero los mejores tipos de medidas son aquellas que tienen un propósito.