INICIO / Blog / Glosario básico para no perderse entre datos: 1ª parte, de la “A” a la “F”
18-05-2023

Glosario básico para no perderse entre datos: 1ª parte, de la “A” a la “F”

Glosario - 1ª parte: de la "A" a la "F"

Este post y su segunda parte pretenden ser de ayuda para entender algunos de los términos técnicos más comunes que aparecen con frecuencia en el entorno de la ciencia del dato.

Términos incluidos en esta 1ª parte: anonimización de los datos; API; aprendizaje automático; aprendizaje profundo; beacons; Big Data; Blockchain; Business Intelligence; csv; casos de uso; Data Lake; datos federados; Data Mining; diccionario de datos; espacio de datos; fuga de datos.


ANONIMIZACIÓN DE LOS DATOS: es un proceso clave para la protección de la privacidad y consiste en convertir los datos en anónimos mediante técnicas que reduzcan el riesgo de identificación de las personas. El proceso es complejo, requiere perfiles y metodologías avanzadas e incluye la evaluación del riesgo de reidentificación y un plan de gestión en el tiempo. La reidentificación suele hacerse a partir de la vinculación con datos de otras fuentes complementarias para buscar relaciones que posibiliten la vinculación del dato a una persona física de modo indirecto. Por este motivo, las técnicas de seudonimización, como el cifrado o reemplazar datos claves de identificación por otros ajenos al registro, no son suficientes.


API (APPLICATION PROGRAMMING INTERFACE): la interfaz de programación de aplicaciones (traducción al castellano) es un mecanismo que comunica dos sistemas que en principio no guardan relación. Funciona a modo de conector entre dos plataformas o software independientes de manera que posibilita que compartan datos y funcionalidades. Por ejemplo, una app de planificación de rutas turísticas podría, mediante el empleo de una API, usar los datos del clima de AEMET y los de flujos de visitantes facilitados por contadores de afluencia para combinarlos con las preferencias del usuario y recomendar una ruta adaptada al tiempo, a la afluencia de turistas y a los gustos de su cliente. O si quisiese desarrollar una app que mostrase información similar a los cuadros de mandos de Dataestur, podría utilizar su servicio API para obtener la información disponible en sus bases de datos.


APRENDIZAJE AUTOMÁTICO o MACHINE LEARNING: es una función de la inteligencia artificial que se vale del procesamiento de los datos y del empleo de algoritmos para posibilitar a los equipos informáticos aprender de forma automática y similar a como lo hace un humano. Es decir, el aprendizaje mejora con la práctica y el estudio; en el caso informático, será más preciso cuantos más datos procese. A grandes rasgos, este aprendizaje requiere la intervención humana para funciones de supervisión y de etiquetado de la información porque, en gran medida, necesita datos estructurados y revisados para aprender.


APRENDIZAJE PROFUNDO o DEEP LEARNING: es una evolución del aprendizaje automático hacia un sistema más escalable.  La máquina estructura su procesamiento de datos de un modo similar al neuronal humano y, aunque aprovecha los datos estructurados, algunas de estas capas “neuronales” se encargan de analizar datos brutos para detectar características que distinguen unos datos de otros. Avances tecnológicos como la interpretación de imágenes, el reconocimiento de habla y su comprensión se basan en este tipo de aprendizaje automático.


BEACONS o GEOBALIZAS: son pequeños dispositivos (de alrededor de uno o dos centímetros), con identificación única, geolocalización y tecnología Bluetooth. Esto permite, por ejemplo, la comunicación con los móviles de los turistas para localizarlos o mostrarles propuestas personalizadas. Para ello, requiere que el usuario tenga instalada una app en su móvil, ya que el beacon sólo envía el aviso de activación de la app. Ésta se pone en marcha a partir de la señal y muestra la notificación personalizada teniendo en cuenta la localización y la configuración del usuario.


BIG DATA: una gran cantidad de datos que requiere de tecnología informática para su gestión y análisis. A veces, de forma genérica se usa en referencia al conjunto de análisis y tecnologías que se emplean para analizar estos grandes conjuntos de datos. También se le denomina macrodatos, datos masivos o datos a gran escala. Por ejemplo, una base de datos con todos los vuelos turísticos a España sería datos masivos que, si bien pueden ofrecer información relevante, requieren de tecnología informática para gestionarlos, analizarlos y obtener algún conocimiento.


BLOCKCHAIN: frecuentemente se asocia a las criptomonedas pero se trata de una tecnología que permite compartir datos entre ordenadores de forma segura a través del almacenamiento de la información en bases de datos descentralizadas y encriptadas.

Su nombre (cadena de bloques) es clave para comprenderla. Una red se compone de múltiples nodos (equipos informáticos). La tecnología blockchain transforma cada intercambio de información en un bloque encriptado y envía ese bloque a todos los nodos. Cada equipo valida la existencia del bloque y lo integra en la cadena. Es decir, tiene la información sobre ese bloque pero también sobre el anterior y el posterior. De este modo, se produce la descentralización de la información (porque está almacenada en todos los nodos) y se refuerza la seguridad (si hubiera un intento de modificar un bloque en un equipo, el resto de nodos alertaría sobre ese cambio; o si un nodo se eliminase, la información permanecería en el resto de equipos). Precisamente por esto, los registros serán siempre inalterables y no se podrán eliminar. Si hubiera necesidad de modificar una información, se deberá almacenar un nuevo registro con el cambio. En resumen, la tecnología blockchain elimina intermediarios, facilita el acceso directo a la información entre quienes la intercambian, descentraliza el proceso, refuerza la seguridad y optimiza la trazabilidad de la información. Es la tecnología que se emplea en las transacciones de criptomendas y en turismo se aplica fundamentalmente para aportar seguridad y confiabilidad a las transacciones y reservas, eliminar intermediarios y ofrecer modos de pago o recompensas alternativos (a través de criptomonedas o tokens)


BUSINESS INTELLIGENCE: a veces aparece como BI y significa Inteligencia de Negocios. Hace referencia a la transformación en conocimiento de los datos existentes en una empresa o negocio a través de su análisis. Es imprescindible para que los datos sean de utilidad en la toma de decisiones. Los cuadros de mando y el seguimiento de indicadores o KPIs son herramientas propias del BI.


CSV: es el formato abierto de archivo más extendido para compartir grandes volúmenes de datos representados en tablas. Tiene dos ventajas principales: son compatibles con multitud de programas y su peso es menor que el de otros archivos de uso extendido como los documentos de Excel. Además, es fácilmente convertible a un formato tradicional de tablas con programas de cálculo como Excel o similar.


CASOS DE USO: son la puesta en marcha de ejemplos prácticos basados en ideas de negocio y que facilitan detectar necesidades, problemas y soluciones a partir de la experiencia. El aprendizaje de estos casos de usos permite la creación de proyectos faro que sirven de modelo para el desarrollo de negocio. La Administración participa activamente en el lanzamiento de casos de usos en la industria del dato, por ejemplo con las acciones llevadas a cabo por la Oficina del Dato y Segittur en torno a la creación del espacio de datos de turismo en España.


DATA LAKE: su significado en castellano es “lago de datos” y es el repositorio donde se almacenan los datos en bruto de una organización. Aunque la información no se encuentre necesariamente estructurada ni el dato preparado para su empleo, es necesario implementar un catálogo de la información recogida, normas de trazabilidad de los datos, una estrategia de seguridad de los mismos y la conexión con las herramientas de uso posterior para procesar, analizar o aplicar inteligencia artificial.


DATOS FEDERADOS: la federación de datos es el proceso que permite que múltiples bases de datos funcionen como una única base de datos cara a los usuarios y a las aplicaciones. La base de datos federada se alimenta del resto de base de datos y transforma la información para presentarla como si fuera propia. Este proceso se hace de forma virtual y no a partir de la copia del contenido de cada base de datos. Es muy importante para facilitar la visualización de los datos y a la hora de transformarlos en conocimiento.


DATA MINING o MINERÍA DE DATOS: es la exploración de grandes conjuntos de datos para encontrar patrones, anomalías y correlaciones que ayuden a predecir resultados. Combina técnicas estadísticas, de inteligencia artificial y de aprendizaje automático que la tecnología permite aplicar actualmente de modo automático o semiautomático. La minería de datos elimina el ruido y limpia la información, identifica los datos relevantes y facilita su evaluación. Sería el paso previo a la inteligencia de negocio y se orienta hacia la detección de patrones y tendencias a tener en cuenta para la toma de decisiones.


DICCIONARIO DE DATOS: es un documento necesario en cualquier base de datos porque lista los metadatos de la información tales como el origen, el formato, el uso, las definiciones de campos, las posibles transformaciones y los valores que puede tomar. Es importante no confundirlo con un catálogo de datos (directorio que facilita localizar la información) o un glosario de negocio (definiciones funcionales del campo de estudio al que pertenecen los datos).


ESPACIO DE DATOS: es un ecosistema descentralizado para el intercambio voluntario y seguro de datos. Se construye en torno a componentes comunes (building blocks) que deben garantizar, además de la interoperabilidad, la soberanía y confianza de los datos. Es decir, debe tener capacidad de identificar y verificar a los participantes y la correcta aplicación de las normas de acceso y uso. Además, cada propietario conserva el control sobre sus datos y determina los requisitos y modos de uso. En turismo, desde la Oficina del Dato, en colaboración con Segittur, se trabaja en la creación de un espacio de datos del sector turístico.


FUGA DE DATOS: es la pérdida de confidencialidad de una información, bien sea por una brecha de seguridad interna, por un error o descuido humano o por el efecto de un ataque informático. La formación del personal que trabaja con datos y la instalación de programas de protección en los equipos informáticos son elementos básicos de seguridad para reducir el riesgo de que ocurra.


  • Si quiere consultar el resto de términos de este glosario básico, puede leer la segunda parte del post. Se incluyen las siguientes definiciones:

Gemelos digitales; GIS (Sistema de información geográfica); gobernanza de los datos; horizontalidad de los datos; Insights; inteligencia artificial; interoperabilidad; IoT; KPIs; metaverso; modelo de datos; NFC; normas UNE; Sandbox; soberanía de los datos; SQL y query y token.

Buscar más posts

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll to top