El conector a archivos PDF de Tableau 10.3

Artículo publicado originalmente en la web the The Information Lab.

Si estás al tanto de las novedades de Tableau en futuras versions, probablemente conoces el conector a archivos PDF que estará disponible en la versión 10.3 de Tableau junto a otra serie de novedades que puedes consultar en esta web.

Personalmente, el conector a PDF es una de las novedades que más interés me han despertado, especialmente porque he sufrido en anteriores trabajos el calvario que supone extraer datos de archivos PDF. Así que estaba deseando poder ver cómo funciona este nuevo conector, sus posibilidades y cómo de preciso es. Si estás interesado en probar funcionalidades de futuras versions de Tableau, te recomiendo registrarte en el programa de Pre-Release y ser de los primeros en conocer futuras novedades de Tableau.

Cómo conectarse a archivos PDF

Una vez has instalado la versión beta de Tableau 10.3, conectarse a archivos PDF es muy sencillo, ya que Tableau ha añadido dicho conector como una opción adicional en la ventana principal bajo la sección “conectar a un archivo”.

Tan sólo tenemos que hacer click en la opción PDF File y aparecerá una nueva ventana donde podremos seleccionar el archivo PDF del que queremos extraer datos. A modo de ejemplo, realicé una rápida busqueda en Google the informes en PDF y encontré este informe sobre competitividad del Foro Económico Mundial que parecía un ejemplo perfecto para probar el nuevo conector. Una vez que hemos seleccionado el archivo al que queremos conectarnos, aparecerá una nueva ventana donde tendremos que especificar si queremos escanear todas las páginas del documento, una única página o un rango de páginas.

Escanear una tabla de datos

Este PDF en particular cuenta con muchas páginas de texto, así que tras un primer vistazo al PDF voy a conectarme a una única página, concretamente a la página 22 que es la primera que contiene una tabla de datos. Concretamente se trata de un listado de países, su relación con la UE y PIB:

En caso de que hayamos cometido un error y no nos hayamos conectado a la página correcta del documento, siempre podemos hacer click derecho en la conexión y seleccionar Rescan PDF file… para elegir una página distinta del documento. Lo que hace muy sencillo probar el aspecto que tendrán en Tableau diferentes páginas de un documento en PDF.

Aún tratándose en este ejemplo concreto de una tabla de datos bastante sencilla, es una grata sorpresa ver lo bien que Tableau identifica y reconoce todos los datos de la tabla, sin mostrar el título de la tabla o el texto que aparece en la parte inferior de la misma. El único pequeño problema que destacaría con esta tabla en concreto es que las cabeceras no las identifica correctamente y que incluye dos filas únicamente con el texto “EU Candidate countries” y “Comparator countries”.

Pero es precisamente con este conector en concreto donde la función Data Interpreter de Tableau es nuestro mejor aliado. Basta con hacer click en la opción Use Data Interperter y Tableau identifica que la primera fila de nuestra tabla son las cabeceras de cada una de las columnas. Ahora sólo hay que ecidir qué hacer con esas categorías que Tableau lee como parte de la tabla y que no contienen más información. Es aquí cuando los filtros de base de datos pueden ayudarnos a terminar de limpiar la tabla para que quede totalmente a nuestro gusto.

Si estuviera interesado en filtrar esas dos columnas que he mencionado, bastaría con añadir un filtro de base de datos que excluya todos los registros con un valor nulo en el campo Status/Relationship with the EU. Si por el contrario prefiero filtrar todos los países de esas dos categorías concretas y analizar sólo países de la UE, podría excluir todos los registros que tengan un valor nulo en el campo EU Code. En este caso particular, quiero analizar sólo países de la UE, así que voy a optar por la segunda opción.

Ahora podemos empezar a visualizar los datos, por ejemplo ver el PIB por país, colorear las barras según el año en el que cada país se unió a la UE.

O tal vez estamos interesados en añadir una dimensión adicional y separar los países en base a si son miembros de la UE o también cuentan con el Euro como moneda nacional.

Se acabó lo de copiar manualmente datos de archivos PDF a ficheros Excel!

Escanear páginas con texto y datos

¿Pero cómo se comporta el conector a PDF cuando escaneamos páginas que contienen texto además de tablas de datos? Vamos a ver que ocurre cuando nos conectamos a la página 32 del documento, la cual contiene un 90% texto y cuenta con una pequeña tabla de datos.

Cuando nos conectamos a la página 32, Tableau identifica dos tablas, la segunda corresponde a la sección de notas al final de la página (no estamos interesados en visualizar eso) así que nos conectaremos a la primera tabla.

De nuevo los datos no son 100% correctos, pero es bastante preciso. Necesitamos filtrar ciertos valores y un par de ajustes adicionales para obtener la tabla tal como la queremos. En este caso vamos a desmarcar la opción que determina que la primera fila contiene el nombre de las columnas y a continuación las renombraremos. Ocultamos la última columna ya que no contiene ninguna información de utilidad, y por últimos filtramos las filas que contienen valores nulos. Este es el resultado:

Datos preparados y listos para visualizarlos en Tableau. Con el beneficio adicional de que puedo utilizar cada conexión a una hoja de un archivo PDF como una base de datos independiente y puedo crear dashboards con tantas páginas de uno o varios documentos PDF distintos. Y reduciendo de forma importante el tiempo dedicado a copiar y pegar manualmente datos de archivos PDF a hojas de Excel.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *