Tutorial Talend Open Studio
# 1. Introducción
# 2. Business Model
# 3. Metadata
# 4. Jobs
# 5. Organización jobs base de datos
# 6 Variables globales y de contexto
# 7 Componentes De Transformaciones Datos
# 8 Jobs De Gestión Masiva De Ficheros
Talend Open Studio
# 1. Introducción
Talend Open Studio ( TOS para los amigos) es una suite que aporta un conjunto muy completo de herramientas de integración de datos que se ofrece en una versión de código libre Comunity Edition CE totalmente funcional. Dispone de una gran cantidad de componentes (más o menos unos 900) que permite hacer grandes cosas.
Conseguir la herramienta es un momento y no hace falta registrarnos, se descarga libremente y fácilmente desde la web de Talend. https://es.talend.com/download/.
Simplemente en la página de descargas seleccionamos el grupo de productos gratuitos y seleccionamos la aplicación Open Studio for Data Integration.
Si necesitamos más versiones las podemos descargar desde sourceforge:
https://sourceforge.net/projects/talend-studio/files/
Arrancar la aplicación no tiene tampoco ninguna complicación, ya que después de descomprimir la carpeta zip, lo único que hay que hacer es buscar en la carpeta principal el ejecutable que corresponda a nuestro sistema operativo. (En caso por ejemplo de windows el archivo ejecutable seria «TOS_DI-win-x86_64.exe»
Pantalla de inicio
Después de unos segundos nos aparece la pantalla de inicio, que se muestra en la imagen. Podemos seleccionar uno de los proyecto que tengamos creados en el nuestro espacio de trabajo. Si es la primera vez que entramos creamos un nuevo proyecto con «Create a new project»
También desde esta pantalla inicial, disponemos de la opción «Import an existing project» que permite importar un proyecto a partir de un fichero local. Además disponemos de la opción «Import a demo project» en el que Talend nos ofrece la oportunidad de importar un proyecto demo que nos ofrece un conjunto de jobs de demostración que ayudan a entender diferentes funcionalidades y componentes.
Entramos en la aplicación.
Conseguido entrar no? Esta es la parte fácil.
Si todo ha ido bien vamos a ver una página de bienvenida en donde se nos muestra los jobs más recientes y enlaces a recursos formativos y foros, así como informaciones de la versión de pago. No está mal para quien le apetezca, navegar un poco por el contenido para ver lo que se cuece..
Una vez cerramos la bienvenida, entramos por fin en la interfase gráfica de la aplicación. Wow que emoción :).
Si habéis trabajado con otras herramientas de integración de datos os parecerá un diseño como familiar, a mi me recuerda especialmente a Knime que también está basada en eclipse, y en algunas cosas también pero ya más diferente en la forma de trabajar al que ha sido un gran referente de los últimos años de integración de datos de código abierto Pentaho PDI.
Si echamos un vistazo general, vemos que como en casi cualquier programa, disponemos de una la barra de menú. También disponemos de la habitual línea de botones y finalmente un área de trabajo dividida en 5 bloques de vistas, que aunque os avanzo que podemos configurar y añadir más vistas o eliminar las que nos molesten. Mi consejo es que si estamos empezando a trabajar con la aplicación no variar esta configuración inicial, si desaparecen las vistas en las dos partes laterales superiores encontrareis el botón restaurar (Dos cuadraditos).
Bloques de Vistas de Talend Open Studio
- Repository: Esta vista como su nombre indica, contiene un repositorio de diferentes elementos cuyo detalle iremos tratando. en este tutorial. Lo localizaremos inicialmente situado en la parte superior izquierda y siempre lo reconoceremos por estar identificado con el icono de una casita. En este panel vamos a poder gestionar todos los trabajos «jobs», documentación y configuraciones que forman parte de nuestro proyecto de integración de datos. La ventaja que nos ofrece Talend con este panel de repositorio, es que diferentes elementos como las las conexiones a las bases de datos, esquemas, templates, etc.. son de tipo compartido para todo el proyecto, cosa que nos va a generar un significativo ahorro de tiempo. Este panel de repositorio también ofrece una serie de botones que permiten por ejemplo maximizar, colapsar el árbol de nodos y otras opciones.
- Panel de desarrollo. Este es el panel de la parte central y básicamente es el que contendrá el desarrollo de cada uno de los procesos. Podemos tener varios elementos abiertos de manera simultanea en distintas pestañas.
- «Palette» o paleta de componentes. Este panel situado inicialmente en la parte derecha nos muestra los diferentes componentes disponibles para construir nuestro proceso de integración de datos.
- Outline. Principalmente nos aporta una visión general del panel de desarrollo.
- Editor. Es la vista contenida en el panel central inferior. Dispone de diferentes pestañas que nos serviran para configurar los diferentes elementos del proceso y también visualizar los logs.
Barra de menú de Talend Open Estudio.
Muchas de las opciones que encontramos en los menús, podemos también acceder a las mismas a partir de botones o combinació de teclas. Damos un pequeño repaso para que nos vayan sonando algunas cosas.
Un clic al menú File o ALT+F permite desplegar las diferentes opciones del este apartado. Como vemos, muchas opciones se pueden ejecutar como combinación de teclas Ctrl. Además de las opciones habituales que són muy comunes y que no hace falta comentar «Close/Save/Print/Restart/Exit». Nos aparece la opción de Switch Project o Workspace, que nos permite cambiar de proyecto e incluso de Workspace si disponemos de múltiples conexiones (opción de subscripción). El nodo de «Edit Project propierties» nos ofrece una amplia posibilidad de configuración de cada proyecto, así como la posibilidad de importar/exportar proyectos y un conjunto muy amplio de configuraciones mediante los nodos Import /Export. La opción de Menú Edit es totalemente estándard con las opciones habituales de deshacer, copiar, pegar, borrar y seleccionar.
Desde el menú Window con el nodo «Perspective» podemos administrar dos perspectivas o vistas. La primera perspectiva es la de «data integration» con los elementos básicos de la interfase gráfica de dataflow. La otra perspectiva «debug» es más técnica y nos permite depuraciones y un control de diferentes elementos del desarrollo de tipo más avanzado.
El nodo «show view» nos permite incorporar nuevas vistas a los paneles de trabajo, por ejemplo la vista «errorlog» que nos muestra tanto avisos como errores de ejecución . El nodo «Preferences» ofrece la posibilidad de configurar el área de trabajo desde múltiples perspectivas que van desde la apariencia a la gestión de actualizaciones, directorios de trabajo, etc…
Desde menú «Help» además de las esperables opciones de contenidos de ayuda, disponemos de un nodo que nos aporta la posibilidad de instalación e nuevos paquetes desarrollados básicamente por colaborares de la comunidad que aportan nuevas funcionalidades y un gestor de nuevos componente y actualizaciones. La opción de «Suport Logs» del menú es ciertamente útil si queremos guardar en una carpeta los diferentes logs de la aplicación en una carpeta comprimida.
Repositorio. Documentación
Primero de todo para entender las lógicas de como funciona el repositorio vamos a empezar con lo más fácil y no por ello menos importante que es incorporar documentos al proyecto.
Empezar diciendo, que para ser justos, no me parece especialmente frecuente encontrar proyectos de integración de datos bien documentados en la propia herramienta. Si el desarrollo corresponde a un consultor externo, quizás se sienta tentado a no ser muy transparente para no facilitar la tarea a un posible competidor. Quizás también ocurra que ya se esté documentado en otra herramienta de gestión de proyectos o de gestión documental.
El caso es que en mi opinión, una cosa no quita la otra y la ventaja que tiene documentar directamente en Talend es que siempre vamos a disponer la documentación junto al proceso, de forma similar a cuando se comenta el código de un script que siempre es de gran ayuda.
En todos los elementos del del repositorio podemos crear niveles de carpetas para estructurar la información
Mediante el nodo «add documentation» podemos añadir diferentes ficheros de documentación o carpetas completas en formato comprimido.
Una vez subidos los archivos, podemos actualizar la documentación mediante la opción «update» y guardando diferentes versiones del documento.
Control de versiones
Talend como filosofia nos permite guardar diferentes versiones, ya sean de documentos o jobs u otros elementos. Mediante la tecla M podemos guardar una nueva versión modificando de 0.1 a 1.1 y con la tecla m de 0.1 a 0.2.
Antoni Lisbona: Director de BuConDa
Excelente tutorial!!! esperemos que puedas hacer alguno mas avanzado para seguir aprendiendo.
muchas gracias.
Muchas gracias Francisco, en breve vamos a publicar una nueva tanda de tutoriales. Gracias!