El mainframe está preparado para la avalancha

El mainframe está preparado para la avalancha 

La avalancha esta aquí y arrasará con aquellos que no estén preparados. El mainframe sigue joven y a sus 50 años no para de mejorar. En la situación actual confluyen varias tendencias que están cambiándolo todo. Es por ello que el mainframe sigue innovando continuamente para dar soluciones a estos nuevos retos. Como apunta Alan Radding en su blog “Dancing dinosour”  el mainframe es capaz de asumir la avalancha que da lugar la movilidad, el cloud computing, el social media o el Big Data. El mainframe sigue apalancando a negocio con nuevas soluciones como es el acelerador IDAA  . IBM DB2 Analytics Accelerator for z/OS permite utilizar la potencia del appliance Netezza

Netezza es una compañia que compro IBM en septiembre de 2010 para posicionarse en el mercado de la analítica de datos. Competencia de Teradata, Exadata, etc se comercializa con el nombre de IBM Pure Data. Esta familia de soluciones cubre un amplio abanico de soluciones para analítica. 

¿Qué es IBM PureData/Netezza?

Se trata de un dispositivo Ad-on (caja negra SW+HW) que permite optimizar las querys pesadas de BBDD DB2 tanto para OLTP como OLAP. Sus características principales son:

  • Reducción de MIPS/CPU y coste por licencias de software (WLC, MLC, etc) en el z/OS.
  • Consolidar la carga crítica en el z/OS (aprovecharnos de la resiliencia, robustez, seguridad, disponibilidad, escalabilidad, etc del mainframe).
  • Accelerar la generación de información/conocimiento a partir de datos. Habilita realizar un uso de los datos más eficiente posibilitando tener el conocimiento en muchísimo menos tiempo.

 ¿Cómo funciona?

El Netezza que posee distintos modelos conforme a las necesidades del cliente. El más pequeño de la familia el módelo es el 1000.1 tiene las siguientes carácterísticas:

  • S-Blades                                 3
  • Cabinets                               1/4
  • Processing Units                 24
  • Capacidad (Tb)                     8
  • Capacidad Efectiva (Tb)    32

Su sistema operativo es un Red Hat Linux Advanced Server y soporta distintos estándares de SQL así como distintos tipos de analítica (In-database, Hadoop, R, Matrix, etc)

IBM Netezza 1000 utiliza Field Programmable Gate Arrays (o FPGAs) que se han programado específicamente para gestionar grandes volúmenes de datos con una gran eficiencia. Estos FPGAs filtran datos irrelevantes tan pronto salen del disco. Esto elimina cuellos de botella de E/S y hace que los componentes situados a continuación del proceso, tales como la CPU, la memoria y la red, no tengan que procesar datos innecesarios, creando un efecto turbo considerable en el rendimiento del sistema.

La complejidad del análisis se lleva a cabo en potentes CPUs de varios núcleos, en los que se ejecutan primitivas de base de datos y análisis complejos en la corriente de datos filtrados. Las tareas de análisis se ejecutan como procesos independientes que operan en las corrientes de datos en cada S-Blade. La plataforma IBM Netezza Analytics se encarga de la potencia de todos  los núcleos computacionales del dispositivo para ofrecer un rendimiento considerable y escalabilidad para análisis avanzados, presentando una vista abstracta para simplificar su despliegue.

Utiliza tecnologías como :

  •  In-Memory. Cada blade posee 674Gb de RAM de los cuales 352Gb puede utilizarse para almacenar datos comprimidos que sería 1Tb de datos en DB2.
  • MPP.  Massive Parallelism procesing. Permite procesar en paralelo las querys a modo que se realiza un preprocesamiento a través de las FPGAS y posteriormente se unen los resultados de cada tarjeta y se procesa en los SMP-HOST.
  • Compresión extrema. Permite comprimir los datos en ratio 4/1.
  • En el interior de Netezza utiliza BBDD por columna y filas de aquí que en muchos casos sea mejor no definir las BBDD en DB2 con índices.

Existen muchas variedades de licenciamento, se vende como software y se paga por espacio contratado.

¿Infraestructura necesaria para utilizar Netezza desde un z/OS?

La conectividad entre el zEnterprise y el Netezza se realiza a través de tarjetas OSA-Express de 10Gb definidas en el IODF como OSD o OSX (depende si tenemos zBX o no).  Dichas tarjetas OSA´s son utilizadas por el VTAM y el TCPIP como vehículo de acceso desde IDAA a Netezza y Viceversa.  La conexión desde el z/OS al Netezza se realiza a través de un nodo TRLE de VTAM y una VIPA del TCPIP.

 IBM DB2 Analytics Accelerator for z/OS

IDAA es un software que se instala en el z/OS y que redirige las querys “pesadas” al Netezza. La versión más reciente es la versión 4.1 en la que existen mejoras considerables con respecto a la versión anterior (leer siguiente enlace) Lo hace a través de un algoritmo que decide cuando una query es pesada. Este producto se instala junto la Infosphere Change Data Captura Para la administración del producto se utiliza una herramienta bajo SO Windows llamada IBM DB2 Analytics Accelerator Studio. Desde esta herramienta gráfica se seleccionan las BBDD que quieren que estén en NETEZZA. Se puede utilizar el IDAA para varios subsistemas DB2 contra el mismo Netezza.  Este software necesita:

  • Instalación con SMP/E
  • Modificaciones en la Zparm del DB2 para indicar que tipo de querys van a ser aceleradas.
  • Generar una serie de tablas en el catalogo del DB2 y procedimiento almacenados
  • Procedimiento almacenados
  • Application Enviroment en WLM que siguen las reglas de clasificación de cargas DDF
  • Librerias en APF
  • Java versión 6
  • Path en los USS .

Para que IDAA puede direccionar las querys pesadas al Netezza se necesita que previamente se hayan copiado las tablas al NETEZZA (copia del catálogo DB2 las tablas seleccionadas). El proceso de carga se puede realizar desde IBM DB2 Analytics Accelerator Studio o a través de un batch que invoka una REXX que llama a un procedimiento almacenado.  Todas las acciones que se realizan desde la herramienta gráfica invocan a un application enviroment que posteriormente llama a un procedimiento almacenado.

Este proceso de carga sigue los siguientes pasos (es el producto Infosphere Change Data Capture quien se encarga):

  •  Descarga de las tablas a ficheros temporales (USS Pipes).
  • Transmisión de los USS Pipes a Netezza.

 ¿Qué problema solventa y que posibilidades permite?

Gracias a este acelerador y una plataforma de integración apropiada se pueden explotar mucho más eficientemente nuestros almacenes tradicionales de datos. Se ofrecen oportunidades cómo:

  • Predicción del fraude en tiempo real. Se pueden realizar analísis predictivos que permitan saber resultados futuros y evaluar en detalle situaciones o patrones que inquen un posible fraude.
  • Predecir lo que quieren los clientes, conocer en tiempo real las campañas de promoción o lanzamientos de nuevos productos o servicios.
  • Reinventar los procesos de negocio. Optimizando las decisiones convirtiendo la visión de los datos de ayer sobre observaciones sobre datos en tiempo real.
  • Impacto directo en TCO. Un ROI inferior en algunos casos a los 4 meses.
  • Reducción en algunos casos de hasta en 1000 veces el tiempo de respuesta de consultas a DB2

@erobertoruiz