[spa] Grandes volúmenes de datos se generan y difunden a diario por usuarios, entidades
o aplicaciones a través de la red. Este volumen masivo de Big Data se distribuye por
millones de sitios web donde está disponible para un diverso número de aplicaciones.
Los motores de búsqueda proporcionan un mecanismo simple de acceso a estos datos.
El acceso a esta información a través de los motores de búsqueda requiere que el usuario
dedique parte de su tiempo para los procesos de consulta, selección y descarga. Es
decir, en primer lugar, el usuario debe escribir en el buscador su consulta. El motor de
búsqueda le ofrece una serie de resultados que contienen información relacionada con
dicha consulta. Posteriormente, el usuario debe seleccionar el link al sitio web que le
resulte más acertado. Una vez seleccionado el sitio web, el usuario navega por sus páginas
en búsqueda de la información referente a su consulta inicial. Pero considérese un
escenario donde un investigador de mercado desea analizar una serie de páginas web
para obtener datos de contacto de posibles futuros usuarios de una plataforma o donde
una empresa está interesada en explorar la web para obtener comentarios relacionados
con los productos o servicios de la compañía. Enviar consultas de manera manual para
obtener estos datos puede resultar complicado, una solución automatizada podría ser
más efectiva.
Como solución a la problemática expuesta anteriormente se presenta HabScraper.
HabScraper es una herramienta cuya finalidad es la extracción automatizada de datos
de contacto de manera masiva que aparecen en distintos sitios web de forma pública y
accesible, con la mínima intervención posible. Este proyecto se centra en describir el
diseño, funcionamiento e implementación de la herramienta.