Soluciones para la vigilancia tecnológica y automatización de búsquedas en la web.
Actualmente Internet es la principal y más extendida fuente de información del planeta. La información y su gestión eficaz marcan la diferencia entre las empresas que compiten en nuestro mercado global. La información y el conocimiento son la fuerza de las empresas líderes.
Las Administraciones Públicas, los Colegios Profesionales, los colectivos empresariales, Federaciones y Centros Tecnológicos, entre otros, disponen de Centros de Documentación e Información, dedicados a la tarea de extraer y facilitar a sus asociados información que les aporte una ventaja competitiva.
InfoCrawler y Searchserver
InfoCrawler es una herramienta software, conocida como "araña", que unida a un potente motor de indexación Searchserver, permite acceder de manera eficiente y ágil a toda la información disponible en la Red. Los servicios de Vigilancia Tecnológica, Gestión del Conocimiento e Inteligencia Competitiva son sus principales beneficiarios.
Estos servicios tienen, como objetivos prioritarios, la selección de contenidos documentales en las siguientes áreas:
- Información técnica y científica.
- Registros de Patentes y Marcas.
- Noticias de la competencia y del sector.
- Eventos.
- Normativa y legislación.
- Boletines informativos.
- Novedades sobre productos competencia.
- Novedades tecnológicas,
- ...
Toda esta información está disponible en línea en Internet. El problema es la enorme dispersión, la heterogeneidad de las fuentes y la frecuente falta de estructuración de los datos.
Ante este panorama se hace imprescindible el uso de herramientas especializadas, que eviten los costosos y poco eficaces procesos manuales.
InfoCrawler es una "araña" que escala e indexa los distintos tipos de documentos, extrayendo datos de las diferentes fuentes: Intranet, sitios Web públicos, grupos de Noticias, sitios FTP, sistemas del archivo locales o remotos...
Las posibilidades de personalización, facilidades de administración, uso amigable, potencia y eficiencia, hacen de InfoCrawler la herramienta perfecta para las funciones antes descritas.
Funcionamiento interno
El motor de indexación de InfoCrawler (SearchServer 6.0) comprueba e indexa las colecciones según su configuración. Si uno o varios documentos han cambiado actualiza el índice mediante una indexación incremental y cuando los cambios son más importantes realiza una indexación completa.
En una BBDD interna guarda toda la información relacionada con la indexación tal como las URLs de los documentos, descriptores o metadata, etc.
Para realizar la indexación puede descargarse todo el sitio en un servidor de ficheros y actualizarlo cada vez que se actualiza el índice del mismo o realizar una descarga temporal de solamente los documentos que necesita indexar. Después de indexación el archivo es eliminado.
La información extraída de las búsquedas se puede almacenar en BBDD externos, en servidores de ficheros, etc.

Características principales
- Arquitectura distribuida: InfoCrawler se diseñó desde un principio para la arquitectura distribuida, es un servicio 100% java WEB, puede ejecutarse y permanecer activo en una o más máquinas. Usa XML para comunicarse y sus componentes, la consola de administración, la araña, y Searchserver, pueden instalarse de manera separada en máquinas independientes.
- Administración intuitiva: usando su propio interfaz Web de administración, usted puede administrar y puede supervisar las colecciones de una manera fácil e intuitiva. Su simplicidad y su flexibilidad reducen los costos de explotación.
- Escalada optimizada: la araña de InfoCrawler permite escalar infinidad de colecciones en paralelo, debido a su arquitectura multi-hilo. Por consiguiente una colección puede escalarse simultáneamente varias veces.
- Robusta Indexación: al utilizar Searchserver 6.0 para indexar los documentos, InfoCrawler puede indexar más de 240 formatos de ficheros.
- Tecnología abierta: InfoCrawler no utiliza ninguna tecnología propietaria, se mantienen URLs usando bases de datos mySql, la administración WEB se realiza mediante Tomcat Apache y JSP, la comunicación entre la administración y la araña se realiza mediante XML y la araña es 100% java.
- Flexible: Siendo compatible con los estándares como HTML, XML, JSP, Java, y JDBC, InfoCrawler puede integrarse fácilmente en gran cantidad de proyectos.
Puntos fuertes
- Características exclusivas: InfoCrawler tiene algunas características exclusivas, como el intérprete de JavaScript, la indexación de XML nativo, la clasificación automática o el gestor automático de direcciones URL.
- Recuperación de errores: Después de una caída de sistema la recuperación es automática y no se pierden las actualizaciones de índices.
- La clasificación automática: InfoCrawler puede analizar los documentos y puede clasificarlos automáticamente en categorías.
- Planificación del proceso de indexación: Se puede establecer un horario para la indexación o reindexación de colecciones específicas. Esta característica es útil para controlar la carga de trabajo en el servidor durante horas punta de búsqueda sobre índices.
- Proxies y Cortafuegos: La araña puede operar a través de Proxies y cortafuegos.
Los sitios indexados pueden estar ubicados en otra parte de la red o incluso fuera de la red segura, como servidores de Web públicos.
- Anulación de URLs en tiempo real: Se pueden suprimir, en tiempo real, de las colecciones URLs que no son útiles o que son obsoletas de forma gráfica y sin alterar el funcionamiento del servidor.
- Intérprete de Scripts Java: Al contrario de otras arañas InfoCrawler no busca URLs "hard coded", porque la mayoría del URLs están construidos dinámicamente.
En lugar de ello, InfoCrawler tiene su propio intérprete de java para ejecutar el código y puede extraer las URLs correctas.
- Exclusión de palabras vacías: InfoCrawler instala infinidad de archivos de palabras vacías para distintos idiomas y que además son modificables según las necesidades de la organización.
- La expansión del tesauro: Los administradores pueden crear tesauros personalizados.
- Los idiomas múltiples: InfoCrawler soporta inglés como norma. Componentes adicionales proporcionan análisis léxico y localización para holandés, francés, alemán, italiano, y portugués, español, sueco, danés, finlandés, noruego, chino, japonés y coreano, entre otros idiomas.
Localización de información a indexar
Con InfoCrawler se delimitan zonas lógicas en Internet, bases de datos, servidores de ficheros, etc., que se denominan colecciones. Estas colecciones son agrupaciones de información similar (medica, legal, etc.) y sobre estas últimas es dónde el usuario final va a realizar las búsquedas. La complejidad de estás últimas dependerá de cómo se haya configurado las colecciones (tipo de indexación realizada por proximidad, tesauros, etc.)
Una vez extraída la información de las colecciones es opcional guardar la misma en un servidor de bases de datos o incluso en uno de ficheros, etc.
Una de las diferencias de InfoCrawler con respecto a otras herramientas de características similares es que no necesita descargar el sitio Web para poder indexar los documentos del mismo sino que va indexando tal como escala la araña sobre el sitio Con esto ahorra espacio lógico en el servidor ya que lo único que guarda, a parte de los índices, son las URLs de los documentos indexados en una base de datos interna.
