En el ámbito de la gestión de tecnología de la información de alta velocidad (High Velocity IT), un aspecto clave a tomar en cuenta para lograr la operación continua y la entrega ágil de productos y/o servicios digitales, es garantizar la capacidad de poder utilizar el producto o servicio ofertado, cuando este sea demandado por el usuario o cliente de este. A este sencillo concepto se le conoce como “disponibilidad (availability)” del producto y/o servicio e implica que el usuario o cliente pueda acceder a la funcionalidad ofrecida por el proveedor del mismo, sin importar si esta, depende de la interacción de ciertos datos e información, software y/o hardware.
¿Qué implica la Monitorización y Gestión de Eventos de ITIL4?
En un mundo basado cada vez más en la economía digital (vs economía tradicional), la necesidad o exigencia de contar con productos y/o servicios que estén disponibles en un horario 24x7x365, es ya ineludible. Y para el caso de la infraestructura tecnológica que soporta la operación y entrega de servicios digitales (habilitadores de la economía digital), garantizar una adecuada disponibilidad de esta infraestructura, se ha vuelto crucial no solo para maximizar la rentabilidad de la inversión realizada, sino también para cumplir con los acuerdos de nivel de experiencia comprometidos (XLAs o Experience Level Agreements).
Así pues para poder superar el reto anterior, contamos con diferentes marcos de referencia así como estándares internacionales, conteniendo mejores prácticas, para gestionar de manera efectiva y eficiente entre otros aspectos de la gestión tecnológica, la disponibilidad de los productos y/o servicios basados en infraestructura tecnológica para el manejo de la información. Una de estas prácticas generalmente aceptadas para este fin, es la Monitorización y Gestión de Eventos con base en el marco público de referencia de ITIL4 (propiedad de AXELOS Ltd).
La Monitorización y Gestión de Eventos es una práctica de ITIL4, que tiene como propósito principal, la observación sistemática de los productos y/o servicios, así como de los componentes tecnológicos de que se forman, identificando cambios de estado mediante el uso de sensores (monitorización), registrando los detalles de dichos cambios de estado en bases de datos estructuradas (sistemas) y reportando los cambios de estado que pudieran ser identificados como eventos relevantes (mensajería), para la correcta operación de los productos y/o servicios entregados o bien de alguno de sus componentes (operación estándar).
Esta práctica se utiliza principalmente en la gestión de la disponibilidad, la capacidad, la seguridad y el desempeño, de los centros de datos, de los centros de comando, de los centros de monitoreo y/o de los centros de operación (ej. de seguridad (SOC) y/o de redes (NOC)). En esta, se establecen de manera general los siguientes lineamientos, sin considerar la “instrumentación tecnológica” necesaria para habilitar la capacidad de monitorización y de gestión de eventos –a la que propondremos más adelante la integración de un Sistema de Inteligencia Artificial (IA)-.
Lineamientos de la Monitorización y Gestión de Eventos:
- Determinación de los productos y/o servicios así como la funcionalidad a ofrecer (uno de los tres elementos de la evaluación de la experiencia del cliente o CX).
- Identificación y priorización de los componentes del producto y/o servicio, así como del producto y/o servicio mismo (ej. bases de datos, sistemas de información o software, hardware y otros servicios tecnológicos).
- Determinación y clasificación de los eventos relevantes a gestionar (ej. árboles de clasificación).
- Definición y configuración de los parámetros o umbrales de gestión de los componentes, productos y/o servicios (ej. porcentaje de disponibilidad, porcentaje de uso, volumen de interacciones, etc.).
- Establecimiento de las reglas lógicas para la determinación de las respuestas o acciones apropiadas para el manejo de los eventos (ej. aplicación de un script o de un cambio).
De acuerdo con los cinco puntos anteriores, gráficamente se podría explicar y representar la Monitorización y Gestión de Eventos de la infraestructura tecnológica, de la siguiente manera:
Figura 1: representación de la Monitorización y Gestión de Eventos

¿Cuál es el reto hoy en la Monitorización y Gestión de Eventos?
Como se mencionó anteriormente, operar y entregar productos y/o servicios tecnológicos o digitales, bajo un esquema de disponibilidad 24x7x365 basados en la operación continua de la infraestructura tecnológica, necesaria para el manejo de la información y además con el firme propósito de cumplir o exceder los acuerdos de nivel de experiencia o XLAs establecidos con los clientes, es un gran reto para los profesionales de TI y para las organizaciones de nuestros días.
En la actualidad existen ejemplos notables, de organizaciones que logran altos niveles de disponibilidad en sus productos y/o servicios, dentro de sectores como el de las telecomunicaciones, o de la seguridad de la información, o del entretenimiento y contenidos en línea, o de los servicios en la nube, que han adoptado, adaptado y mantenido en los años recientes, una arquitectura de gestión con sistemas, herramientas, personal, procesos y demás elementos, que les permiten monitorizar, gestionar y controlar mediante una combinación de tareas tecnología – hombre (uso de la inteligencia humana), la operación continua de la infraestructura necesaria para mantener la funcionalidad de la tecnología de la información y de la tecnología de operación, que soporta sus productos y/o servicios digitales. Alcanzar tales niveles de disponibilidad, implica haber alcanzando altos niveles de madurez en dichas organizaciones, para contar y aplicar de manera coordinada, múltiples recursos y capacidades bajo la supervisión constante e iterativa del ser humano (ajustes con intervención humana).
Sin embargo, esta historia está cambiando para mejorar aún más y para el beneficio de los proveedores y consumidores de servicios tecnológicos o digitales, ya que hoy en día se cuenta con la capacidad de poder integrar sistemas de inteligencia artificial estrechos o débiles (uso de inteligencia de máquina), que permitan realizar tareas repetitivas y con un alto nivel de precisión, en actividades de planeación, programación y optimización de los recursos en general (incluyendo los recursos de TI), que además requieran un nivel de razonamiento y aprendizaje (learning machine), para maximizar el resultado final, que en este caso podría ser la disponibilidad de la infraestructura, mediante la aplicación de acciones escogidas para tal fin, en una combinación de tareas tecnología – máquina.
Así pues, el reto de hoy para los profesionales de TI y sus organizaciones, será querer y saber cómo aprovechar e integrar un Sistema de IA, a la arquitectura de gestión de los centros de datos, o de monitoreo, o de comando, o de operaciones, que les permita no solo identificar los eventos relevantes para la operación continua de la infraestructura, a partir de la tecnología utilizada (mediante agentes o sensores), para detonar las acciones apropiadas mediante algún correlacionador de eventos y reglas (con IA, será mediante robots de software y/o hardware), sino que además pueda este sistema aprender de sus acciones (machine learning), mejorando sus respuestas con el tiempo y maximizando el nivel de disponibilidad de los componentes de los productos y/o servicios, así como de los productos y/o servicios en sí, y todo esto ya sin la necesidad de requerir y depender de la constante supervisión del elemento humano (ej. un-supervised o reinforcement learning), para finalmente con esto poder orientar la actividad de la inteligencia humana, a otras actividades de mayor valor para las organizaciones.
Si tomamos la definición de “aprendizaje de máquina” planteada por el experto internacional en Machine Learning, Tom Mitchell y la extrapolamos al reto establecido para la práctica de Monitorización y Gestión de Eventos de ITIL4, el reto ahora para la “instrumentación” de la tecnología de monitoreo y de gestión de eventos, sería el siguiente:
R e t o. . .
“Lograr que las soluciones tecnológicas para la monitorización y gestión de eventos, aprendan de la experiencia “E”, con respecto a una acción o respuesta “A”, y una medición de desempeño como el nivel de disponibilidad “D”, si su desempeño en la acción o respuesta “A”, medida por el parámetro de desempeño “D”, mejora con la experiencia adquirida “E””.
En otras palabras y para decirlo de manera más simple, si el nivel de disponibilidad de una cierta infraestructura tecnológica, puede maximizarse mediante la observación continua del comportamiento de sus componentes y sus cambios de estado, aplicando las acciones o respuestas que busquen mantener el funcionamiento óptimo de sus componentes, aprendiendo de cada acción o respuesta aplicada, para con esto ajustar las reglas o modelos utilizados para la toma de decisiones, entonces se estaría maximizando el aprovechamiento de la arquitectura de gestión, mediante el uso de sistemas de IA en los sistemas y herramientas de monitorización y gestión de eventos.
Emulando al nombre del algoritmo creado en 1997 por la empresa IBM, el Minimax, para jugar ajedrez contra el campeón en turno, aquí se tendría que crear uno que busque maximizar la disponibilidad mínima requerida por la infraestructura en su conjunto (en serie y/o en paralelo), a partir de los datos e información almacenada en las bases de datos del monitoreo; su nombre sería, algoritmo Maximin.
¿Cómo integrar un Sistema de IA para maximizar la disponibilidad de la infraestructura?
Tomando como referencia la figura 1 y utilizando la arquitectura básica definida por los expertos en inteligencia artificial, Russell & Norvig, ubicaremos las partes necesarias para la habilitación de un agente de inteligencia artificial (véase la figura 2) o lo que sería ahora el sustituto de la inteligencia humana, para con este bosquejar de manera simple la idea planteada en el artículo, de integrar un Sistema de IA, a la tarea de maximización del nivel de disponibilidad de una cierta infraestructura, necesaria para la operación continua de la tecnología de la información de cualquier producto y/o servicio tecnológico o digital, a través de la práctica de Monitorización y Gestión de Eventos de ITIL4.
Figura 2: arquitectura básica para un agente de IA (Russell & Norvig)

En donde los sensores del agente de IA (figura 2), serían los agentes de monitorización marcados así en la figura 1, mientras que el programa del agente de IA (figura 2), se debería integrar con el correlacionador de eventos y reglas marcado así en la figura 1, así como con las bases de datos de las herramientas de monitorización.

De acuerdo con lo plasmado en la figura 2, los elementos que entonces se deben considerar para integrar un Sistema de IA, en la práctica y dentro de una solución de Monitorización y Gestión de Eventos, son los siguientes:
- Entorno para la tarea: en donde se busca maximizar la disponibilidad de la infraestructura tecnológica (parámetros, ej. % de disponibilidad).
- Perceptores: a través de sensores (agentes de monitoreo que perciben los cambios de estado) y los cambios en el entorno (eventos en los componentes de TI).
- Programa: consistente de un algoritmo para el procesamiento de información, el razonamiento y el aprendizaje (utilizando las bases de datos estructuradas de las herramientas de monitorización, las reglas, los modelos y la valoración de los parámetros relacionados, ej. % de disponibilidad).
- Actuadores: para la aplicación de las acciones o respuestas necesarias, para mantener la operación óptima de la infraestructura tecnológica (enseñanza del algoritmo y aprendizaje sobre la marcha), mediante el uso de robots (ya sea software y/o hardware).
Así pues, sustituyendo la inteligencia humana por la inteligencia artificial, se puede hacer que la práctica de Monitorización y Gestión de Eventos, continuamente aplique las acciones que mantengan la disponibilidad de la infraestructura, propiciando el aprendizaje y el auto-ajuste de las acciones implementadas (con intervención de la máquina), así como entregando información sobre la toma de decisiones ejecutada en estos procesos, para poder ser revisados por el elemento humano cuando este así lo requiera (aplicando el principio ético de “capacidad de explicación” o “explicability”).
Disponibilidad de la infraestructura vs Sistema de IA: ¿primeras conclusiones?
En el siglo XXI, la inteligencia artificial (AI & ML) junto con otras tecnologías vinculadas a la Cuarta Revolución Industrial, cambiarán radicalmente la forma en cómo hemos venido haciendo las cosas. En el caso de la gestión de los ambientes de tecnología de la información de alta velocidad, no será la excepción, por lo que se deberá aprender, entender y aprovechar las bondades de estas tecnologías disruptivas, para cambiar radicalmente la forma en que se ha operado y entregado servicios de TI o servicios digitales (¡lo de hoy!).
El reto para los profesionales de TI y sus organizaciones, ¡es muy grande y también muy emocionante!, encontrándose frente a diversas ciencias y disciplinas que harán la diferencia en el futuro cercano. Tal es el caso de los Sistemas de Inteligencia Artificial y su aprovechamiento en diferentes ámbitos, como lo puede ser dentro de la gestión de los centros de datos, los centros de comando, los centros de monitoreo o los centros de operación, y particularmente en la aplicación de prácticas como lo es la Monitorización y Gestión de Eventos (práctica ad-hoc para la integración de un Sistema de IA).
No obstante lo anterior, es importante recordar que aún y cuando los Sistemas de IA podrán realizar actividades o tareas específicas que hoy los humanos también están realizando, este proceso de sustitución o transformación deberá ser paulatino, dando tiempo a que la sociedad asimile los avances que la ciencia y la tecnología traerán consigo, junto con los beneficios y riesgos inherentes a estas, sin dejar de lado ¡claro esta! la aplicación de la ética y el cumplimiento con ciertos derechos, valores y principios irrenunciables del ser humano.
Si a ti te apasiona e interesa saber más sobre el tema, ¡contáctame!, será un gusto poder platicar contigo.

Consultas y referencias bibliográficas
- The BCS AI Foundation Delegate Manual. Purple Griffon, Ltd. UK, 2019.
- ITIL4 Foundation Manual. AXELOS, Global Best Practice, UK, TSO, 2019.
- A Definition of AI: main capabilities and disciplines. European Comission, High Level Expert Group on Artificial Intelligence. Brussels, 2019.
Te invitamos a leer:
Impacto de la pandemia en el sector del petróleo y el gas