Datos y demás historias...

   myTrama, web scraping, data mining, screen scraper

myTrama - La herramienta definitiva para extraer datos de la web

Autor: Osmar Castrillo

En la web hay muchos datos, es algo obvio. Cada día se generan más y más teras de datos, y casi todo el mundo en algún momento ha necesitado extraer información de uno o varios sitios web para luego tratarla, ya sea en formato de hoja excel, en un documento word o incluso para integrar los datos en otra aplicación. Estudiantes, investigadores, profesionales diversos y organizaciones empresariales suelen tener esta necesidad. Pero el problema para ellos está en que estas personas tienen que navegar a través de diferentes web, copiar los datos requeridos y pegarlos en sus documentos. Un proceso realmente tedioso y lento que requiere un gran esfuerzo. Entonces, ¿existe una forma más eficiente de realizar este proceso? La respuesta es sí, a través de herramientas de "web crawling".

Vitesia aporta en este mundo su solución online con la publicación de myTrama, nuestra visión de lo que debería ser una herramienta de extracción de datos alojados en la web.

¿Qué es un Web Scraper?

El mercado tecnológico se mueve de forma vertiginosa, por lo que una vez se detecta una necesidad, surgen nuevos conceptos, métodos y herramientas que ofrecen posibles soluciones, generando en muchas ocasiones un nuevo nicho de mercado. En el caso que nos ocupa el concepto es el de web scraper, screen scraping, data mining o web crawler, entre otros términos que se han acuñado en los últimos meses.

Una herramienta de web scraping es una solución tecnológica concebida para la extracción de datos desde varios sitios web, de forma que el proceso sea rápido, eficaz y automatizado, devolviendo esa información en formatos más manejables y estructurados tanto para procesos B2B como B2C.

Cada herramienta y fabricante aporta su propia solución tecnológica, pero coinciden en lo básico: se procesa el código HTML de las páginas web para su posterior manipulación y operación, convirtiéndolo en un nuevo formato de documento, que tiene mayor valor para el posterior tratamiento de la información. Dentro de la cadena de valor de un sistema completo de información, puede decirse que el la transformación que realizan estas herramienta es un eslabón intermedio. Es como transformar el material arcilloso en bruto en preciosos ladrillos, con los que más tarde se podrán construir muros, edificios o naves insudtriales. Su valor está en lo que son, ladrillos, al igual que los datos estructurados que nos devuelven las herramientas de data extracting.

Uso de un Web Scraper

Con la ayuda de estas herramientas se pueden extraer datos desde diferentes sitios web, y disponerlos en formatos muy estructurados tales como JSON, XML o CSV. Se pueden extarer datos como números, textos, enlaces o imágenes de forma sencilla y rápida, con una organización lógica y en ocasiones (según la herramienta) semántica. Hacer esto de forma manual no es para nada sencillo, ni trivial, ni mucho menos barato. La herramienta puede mejorar significativamente la eficacia y la productividad de un proceso de crawling estándar. Los web scrapers también son utilizados por expertos en marketing online y profesionales en SEO para sacar inteligentemente y en privado algunos datos de los sitios web de la competencia.

myTrama. La visión de Vitesia de un web scraper.

En Vitesia venimos desarrollando nuestra propia herramienta durante los últimos meses, y podemos dar por concluida la primera versión de ella, a la que hemos bautizado como myTrama. Puedes acceder si lo deseas a la página de login de myTrama y solicitarnos la creación de una cuenta de usuario para un periodo de 30 días totalmente gratis.

Respecto a la competencia, myTrama aporta innovaciones tecnológicas tales como el desarrollo de un lenguaje propio de consultas, similar al conocido SQL. La herramienta dispone de una interfaz totalmente visual, donde se carga la web objetivo y se puede hacer "picking" para ir seleccionando los datos (bloques de la pantalla) que se necesitan. De cara a la comunidad de desarrolladores de aplicaciones y APPs, el proceso de picking se traduce en la construcción de una consulta en el lenguaje propio de la herramienta, al que hemos denominado Trama-WQL (Web Query Language). Esta consulta puede ser gestionada en modo texto, incluso puede ser escrita desde cero sin tener en cuanta el picker. Ambos, el editor WQL y el picker están sicronizados, por lo que un cambio en uno de ellos repercute en el otro.

El proceso resulta bastante sencillo e intuitivo, crándose de forma automática APIs que enlazan con los datos para su integracion en procesos de
B2B. Un sistema de cacheo de la información permite que los tiempos de latencia entre myTrama y la web no afecten a las llamadas a las APIs, que
devolverán muy rápido la información que hay en la caché. En caso de que el sistema detecte que los datos son obsoletos, refrescará los datos de la caché en background.

myTrama es una herramienta totalmente online, no es necesario descargar ni instalar ningún software en nuestros equipos locales. La herramienta también facilita al usuario un cuadro de mando donde poder llevar un control de lo que pasa con su consultas, estadísticas, gráficos y alertas.

myTrama y la tecnología Trama de Vitesia pueden ser utilizados además para el desarrollo de proyectos ad-hoc verticales que satisfagan diferentes necesidades relacionadas con el data web mining, como por ejemplo agregadores, comparadores o enlazado de datos (web semántica). También puede ser de gran utilidad en proyectos de Big Data y Business Intelligence, sirviendo como herramienta para la entrada de datos a éstos. 

Pantalla general de la herramienta myTrama

Cuadro de mando de myTrama


Este proyecto ha obtenido financiación por parte del IDEPA (Instituto de Desarrollo Económico del Principado de Asturias), así como por la Unión Europea a través del Fondo Europeo de Desarrollo Regional (FEDER).

 

Logos FEDER e IDEPA