Ir al contenido principal

Constructor de resultados

Results Builder (Constructor de resultados) - permite transformar los resultados de cada extractor antes de su formateo y guardado en el disco

Características

  • División del resultado en partes mediante una expresión regular o un delimitador arbitrario
  • Reemplazo de una subcadena en el resultado o reemplazo mediante expresión regular
  • Extracción del dominio o del dominio principal de un enlace
  • Conversión del resultado a mayúsculas o minúsculas
  • Eliminación de etiquetas HTML (<b>text</b> -> text)
  • Conversión de entidades HTML en sus equivalentes Unicode (&copy; -> ©)
  • Obtención de datos mediante consultas XPath
Constructor de resultados

Ejemplos

Extracción de dominios

Guardar solo los dominios al extraer enlaces de los motores de búsqueda:

Extracción de dominios

Como fuente se utilizan los elementos link del array serp del primer extractor, a cada elemento se le aplicará la función de extracción del dominio principal del enlace, el nuevo resultado se guardará bajo el mismo nombre (elemento link en el array serp) - por lo tanto, no es necesario cambiar el formato del resultado

Extracción de fragmentos con limpieza

Guardar fragmentos (snippets) de los motores de búsqueda con limpieza de etiquetas HTML y conversión de entidades HTML

Por defecto, los anclajes y fragmentos se extraen con todas las etiquetas anidadas, lo que permite mantener el mismo formato que al ver los resultados de los motores de búsqueda. Si solo se necesita el texto limpio, se pueden utilizar las capacidades del Constructor de resultados:

Extracción de fragmentos con limpieza

En este ejemplo, se han aplicado secuencialmente dos Constructores de resultados a los fragmentos: eliminación de etiquetas HTML y conversión de entidades HTML

Extracción mediante XPath

Extracción de enlaces de los resultados de búsqueda mediante XPath:

Extracción mediante XPath

En este ejemplo se muestra la extracción de enlaces del buscador Google. Se utiliza la consulta XPath:

//*[@id="rso"]/div[3]/div/div[1]/a/@href