Disaster Recovery para un canal premium europeo

Disaster Recovery for a Premium European Channel

El reto

Una de las principales televisiones privadas de Europa experimentó un incidente que burló todos sus sistemas de contingencia. La sede de este canal de televisión consta de varios edificios repartidos por un gran campus. El playout principal y el playout de recuperación de desastres se realizaron en instalaciones ubicadas en lados opuestos, el primero en un primer piso y el segundo en un sótano tipo búnker con su propia fuente de alimentación independiente que consta de puntos de alimentación con dos compañías eléctricas diferentes y un generador diesel eléctrico. En su momento, crear el sitio de recuperación de desastres había sido costoso pero todo el equipo creyó que era una buena inversión, ya que una televisión premium no puede permitirse interrupciones de emisión que perjudiquen su prestigio, su audiencia y sus ingresos. No obstante, a pesar de todos los esfuerzos dedicados a la construcción del «búnker», el sitio de recuperación ante desastres resultó inútil cuando fue necesario.

El desastre

Un día, un episodio de lluvia extremadamente fuerte provocó una obstrucción en el sistema de drenaje e inundó el campus con una capa de agua que en algunas áreas llegó a casi medio pie. Tras pasar algunas horas bajo el agua, la fuente de alimentación del playout principal falló. Los ingenieros del playout supieron que la emisión pasaría a negro. No había forma de cambiar al playout de recuperación de desastres porque el hecho de estar en un sótano fue la primera parte en inundarse. El canal de televisión no estuvo fuera del aire por mucho tiempo porque cambió a una sucursal regional mientras restauraba rápidamente el suministro de energía al edificio principal, pero fue una jornada extremadamente angustiosa para todos los involucrados.

Después del análisis post-desastre de la fatídica noche, se propusieron muchas opciones. Se pudo buscar un lote en lo alto de un cerro, se pudo mejorar el drenaje del plantel hasta el punto de que aguantase épicos diluvios, se pudo impermeabilizar el sótano hasta hacerlo más hermético que un submarino, y se logró construir un búnker de dos pisos para ubicar la recuperación de desastres en el segundo piso. Sin embargo, estos enfoques de fuerza bruta eran muy costosos y en realidad, poco satisfactorios. A alguien se le ocurrió la idea de ubicar la recuperación ante desastres en la nube y, después de considerarlo un poco, se decidió explorar más seriamente esa posibilidad. Eran ingenieros de transmisión tradicionales que siempre habían visto la nube como algo abstracto y remoto, pero que ahora se dieron cuenta de que ese lugar remoto y abstracto era el lugar ideal para ubicar el playout de recuperación de desastres al abrigo de cualquier peligro.

Después de un minucioso proceso de selección, se eligió VBox Disaster Recovery (VBox DR) de Vector 3 para colocar la emisión en la nube para que fuese accesible de manera inmediata desde cualquier computadora, tableta o teléfono celular.

 

La solución

La solución propuesta, aprobada e implementada consistió en un sistema VBox DR trabajando en instancias en la nube de AWS, ya propiedad del cliente. El cliente ya estaba usando la nube como repositorio y archivo a largo plazo para sus archivos de video y el nuevo playout de recuperación de desastres se instaló en instancias que pertenecen a esta nube de AWS. Esto tiene dos ventajas clave: en primer lugar, no es necesario que los archivos abandonen el entorno de la nube bajo el control del cliente, lo que evita implicaciones legales con terceros (es decir, empresas de producción, propietarios de derechos, etc.). En segundo lugar, debido a que los archivos de video ya se descargaron, Mediamanager de Vector 3 puede recuperarlos del almacenamiento de S3 a las instancias de reproducción utilizando las listas de reproducción. Para los archivos de vídeo de última hora se estableció un procedimiento especial que copia desde el almacenamiento NAS local a una carpeta dedicada, siguiendo la misma ruta que se usa para las listas de reproducción de los próximos días. La lista de reproducción del día actual se descarga cada vez que cambia o, en cualquier caso, al menos una vez cada hora para asegurarse de que esté sincronizada con la que está en el aire en el sistema principal de terceros. De esta forma, el sistema de recuperación ante desastres puede imitar la emisión principal en cualquier momento.

 

 

Seguridad total

Este playout de recuperación ante desastres tiene una marca de canal completa, con gráficos, inserción de texto dinámico, retrocesos comprimidos y otros DVE. El sistema también realiza la lectura e inserción de SCTE35 tanto de forma automática como manual. Genera registros de ejecución compatibles con los sistemas de programación y reconocimiento de programas del cliente, así como informes en un formato compatible con el software de ventas y publicidad del cliente. Toda la actividad del operador mientras está conectado se registra de forma continua, se archiva y se hace accesible a petición de los administradores autorizados. Asimismo, a efectos de diagnóstico de incidencias o mantenimiento, toda la información técnica relativa al funcionamiento de las diferentes aplicaciones se registra, fecha y archiva para que sea accesible en caso de necesidad.

Estados de actividad

El sistema tiene tres posibles estados de actividad que corresponden a los tres niveles de costeo utilizados en el contrato con AWS.

  • El primero se denomina HOT y en este estado el sistema se encuentra en pleno funcionamiento entregando a los portadores una señal idéntica a la que entrega el sistema principal de terceros (espejo).
  • El segundo estado se llama WARM y consiste en que el sistema está jugando pero sin que la señal salga de las instancias. En este estado WARM el sistema puede entregar una señal un segundo después de solicitada, activando el punto de conmutación en la salida. El tercer estado se llama COLD y es extremadamente económico ya que no se utiliza ningún recurso de AWS, por lo que no se cobra ningún cargo.
  • Para pasar del estado COLD a HOT , el sistema necesita entre tres y cinco minutos, dependiendo de cuántos canales estén involucrados. Los operadores pueden decidir en cualquier momento en qué estado quieren el sistema completo o cada grupo de cuatro canales. En circunstancias normales, el sistema se puede operar desde la sala de control principal en las instalaciones como si se reprodujera desde la sala de racks en las instalaciones. En caso de emergencia puede ser invocado desde cualquier lugar por quien tenga la credencial.

 

 

Control total

Una gran cantidad de ordenadores portátiles especialmente configurados se almacenan en diferentes ubicaciones (algunas de ellas fuera del campus). Con solo arrancarlos, los operadores obtienen el control de la emisión. En caso de que se espere que los problemas en el playout principal perduren, algunos estudios en ubicaciones avanzadas están preparados para enviar por SRT la señal para que se puedan producir programas en vivo. De manera análoga, el U-van puede conectarse por el mismo medio para que los eventos deportivos puedan ser transmitidos sin interrupción. Se han establecido cuidadosamente todos los procedimientos de contingencia y muy especialmente los que comunican a los diferentes operadores y redes (terrestre digital, enlaces satelitales, cable y CDNS) qué protocolo de confirmación deben seguir para pasar de los enlaces utilizados por el playout regular al entrante. Señal SRT proveniente de la recuperación ante desastres en la nube.

 

 


 

El ingeniero de playout a cargo del proyecto indicó cuál fue el criterio para seleccionar el concepto y el software propuesto por Vector 3.

“Queríamos un sistema que funcione con tecnologías conocidas y funcione en nuestra propia nube para que podamos administrarnos con nuestro personal. No queríamos usar un alojamiento de terceros con reproducción en la nube ya que no queríamos usar alojamiento con nuestra reproducción regular. Queremos sentir que tenemos nuestra emisión bajo nuestra égida y que podemos manipular sin interactuar con terceros o aprender tecnologías abstrusas”.