Capítulo 2. Integración de SPSS Modeler
SPSS Modeler es un entorno de trabajo de minería de datos con un enfoque visual al análisis. Cada
acción individual de un trabajo, desde el acceso a un origen de datos hasta la fusión de registros,
pasando por la generación de un nuevo archivo o de un modelo, se representa mediante un nodo en el
lienzo. Dichas acciones se enlazan entre sí para formar una secuencia analítica. Para construir una
secuencia analítica que se ejecute con Analytic Server:
1. La secuencia debe empezar con un nodo de origen de Analytic Server.
2. Construya el centro de la secuencia en la interfaz de Modeler como haría normalmente, seleccione
nodos de proceso (operaciones de Campo o Registro) soportados por Analytic Server. Hay un panel
de Analytic Server en la paleta de Modeler que muestra los nodos soportados.
3. Hay un par de opciones para finalizar la secuencia.
v Seleccione un nodo de terminal (Salida, Gráfico, Exportación o Modelado) que esté soportado por
Analytic Server. En este caso, Modeler incorpora la secuencia entera a Analytic Server. Analytic
Server orquestra los trabajos necesarios en el clúster de Hadoop y pone los resultados a disposición
de Modeler. Modeler toma los resultados y los presenta al usuario, de la misma manera que si la
secuencia se procesara localmente.
v Si selecciona un nodo de terminal que no está soportado por Analytic Server, Modeler incorpora a
Analytic Server tanta parte de la secuencia como sea posible y, a continuación, empieza a extraer
los registros de Hadoop. Tenga en cuenta que Analytic Server puede puntuar algunos modelos que
no pueden construirse actualmente con Analytic Server. Esto significa que puede estructurar una
secuencia para que tome un sub-ejemplo válido estadísticamente de datos masivos con Analytic
Server y, a continuación, construir un modelo "localmente" en Modeler. El nugget de modelo
resultante podrá incluirse a continuación en una secuencia de puntuación que se ejecute por
completo en Analytic Server.
Nota: El número máximo de registros que SPSS Modeler descargará de Hadoop puede configurarse
en las propiedades de secuencia de Analytic Server.
Nodos soportados
La ejecución de muchos nodos de SPSS Modeler está soportada en HDFS, aunque es posible exista alguna
diferencia en la ejecución de determinados nodos, mientras que otros ni siquiera están soportados en la
actualidad. Este tema detalla en nivel de soporte actual.
Nota: Consulte la documentación de SPSS Modeler para obtener información sobre el funcionamiento
ordinario de estos nodos.
General
v Analytic Server no acepta algunos caracteres que normalmente se aceptan en el interior de un
nombre de campo entrecomillado de Modeler.
v Para que una secuencia de Modeler se ejecute en Analytic Server, debe empezar con uno o más
nodos Origen de Analytic Server y terminar con un único nodo de modelado o de exportación
de Analytic Server.
v Se recomienda definir el almacenamiento de destinos continuos como real en lugar de entero.
Los modelos de puntuación siempre escriben valores reales en los archivos de datos de salida
de los destinos continuos, mientras que el modelo de datos de salida de las puntuaciones se
ajusta al almacenamiento del destino. Por tanto, si un destino continuo tiene un
almacenamiento entero, se producirá una discordancia entre los valores escritos y el modelo de
datos de las puntuaciones, y dicha discordancia provocará errores cuando se intenten leer los
datos puntuados.
25