Tema 5: Monitoreo y observabilidad
⏱️ Tiempo estimado: 3-4 días
Monitoreo y observabilidad son prácticas esenciales de DevOps para entender salud, rendimiento y confiabilidad de tus aplicaciones e infraestructura. En este tema vas a configurar monitoreo con Prometheus y visualización con Grafana. Después vas a explorar agentes de IA con n8n y flujos agentic para automatizar respuesta a incidentes.
📚 Ruta de aprendizaje
¿Por qué importan monitoreo y observabilidad en apps cloud-native?
Apps cloud-native suelen ser distribuidas, dinámicas y corren en muchos servicios/entornos. Monitoreo y observabilidad son críticos porque:
- Ayudan a detectar y resolver problemas rápido, reduciendo downtime
- Dan visibilidad del estado del sistema, rendimiento y experiencia del usuario
- Permiten alertas proactivas y troubleshooting en sistemas complejos
- Apoyan escalabilidad y confiabilidad al identificar cuellos de botella
- Ayudan a entender dependencias e interacciones entre servicios
Sin monitoreo/observabilidad, se vuelve muy difícil mantener, depurar y optimizar sistemas cloud-native.
¿Cómo pueden ayudar agentes de IA?
Los sistemas de monitoreo generan alertas todo el tiempo. Tradicionalmente, un engineer investiga y arregla cada alerta manualmente. Si equipas agentes de IA con la lógica adecuada, puedes:
- Responder instantáneamente a alertas
- Analizar logs/métricas para encontrar root cause automáticamente
- Ejecutar fixes (reiniciar servicios, escalar recursos, rollback) de forma independiente
- Aprender de incidentes para mejorar respuestas futuras
- Liberar al equipo de tareas repetitivas
Estudia
- ¿Qué es Monitoring y Observability en DevOps?
- Prometheus Overview
- Grafana Overview
- Prometheus + Grafana Integration
- ¿Qué son AI agents?
- ¿Qué son agentic workflows?
- n8n Overview
Conceptos clave
- Métricas: datos cuantitativos (CPU, memoria, requests, etc.)
- Alerting: notificaciones automatizadas por umbrales
- Dashboards: visualizaciones rápidas
- Instrumentación: código/exporters para exponer métricas
🛠️ Tareas hands-on
1. Configura Prometheus
-
Crea un
prometheus.ymlmínimo:global:
scrape_interval: 15s
scrape_configs:
- job_name: 'prometheus'
static_configs:
- targets: ['localhost:9090'] -
Instala Prometheus con Docker:
docker run \
-p 9090:9090 \
-v /path/to/prometheus.yml:/etc/prometheus/prometheus.yml \
prom/prometheus -
Agrega el endpoint de métricas de tu app a
static_configs.
2. Configura Grafana
-
Instala Grafana con Docker:
docker run -d --name=grafana -p 3000:3000 grafana/grafana -
Abre Grafana en http://localhost:3000 (login default:
admin/admin) -
Agrega Prometheus como data source (URL:
http://host.docker.internal:9090ohttp://localhost:9090) -
(Opcional) conecta métricas del proveedor (AWS CloudWatch, Azure Monitor)
3. Crea dashboards
- Crea un dashboard nuevo y agrega panels con PromQL (por ejemplo:
up,http_requests_total) - Visualiza métricas de tu app o infraestructura
4. Instrumenta una app de ejemplo
- Para Node.js: usa prom-client
- Para Python: usa prometheus_client
- Agrega el endpoint de métricas en Prometheus y visualiza en Grafana
5. Construye un agente de IA con n8n
- Instala n8n con Docker:
docker run -d -p 5678:5678 --name n8n n8nio/n8n:latest
- Abre n8n en http://localhost:5678 y crea tu login.
Crea tu agente:
- Crea un trigger Schedule (cada 1-2 min)
- Consulta la API de Prometheus por una métrica
- Agrega un nodo If para detectar umbral
- Llama a un LLM para analizar anomalías y sugerir remediación (OpenAI API)
- Envía el análisis por email o Slack
- (Opcional) agrega pasos de remediación automática
Prueba:
- Genera tráfico alto o errores en tu app
- Verifica que el agente detecte, analice y actúe
🧪 Pon a prueba tu conocimiento
- ¿Cuál es la diferencia entre monitoreo y observabilidad?
- ¿Cómo recolecta Prometheus métricas de apps?
- ¿Qué es PromQL y cómo se usa en Grafana?
- ¿Cómo configurarías alertas de CPU alto con Prometheus?
- ¿Qué son exporters en Prometheus?
- ¿Cómo agregas un data source en Grafana?
- ¿Cuáles son buenas prácticas para dashboards?
- ¿Cuáles son componentes clave de arquitectura de agentes de IA?
- ¿Cómo ayuda un LLM a un agente a tomar decisiones?
Recursos
- Prometheus Documentation
- Grafana Documentation
- Monitoring Node.js Apps with Prometheus & Grafana
- Monitoring Python Apps with Prometheus & Grafana
- Awesome Prometheus Alerts
- n8n Documentation
- Self-host n8n
✅ Checklist del tema
Antes de seguir, asegúrate de tener:
- Entendido monitoreo vs observabilidad
- Configurado Prometheus con configuración básica
- Desplegado Grafana y conectado a Prometheus
- Creado dashboards con PromQL
- Instrumentado una app con métricas
- Construido un agente de IA con n8n
- Probado detección y alertas