Ir al contenido principal

Check::BackLink - comprueba la presencia de enlaces en una base de datos de enlaces

Resumen del extractor

Resumen del extractor: velocidad de trabajo

El extractor permite verificar enlaces de retroceso (backlinks), específicamente enlaces en páginas de sitios que apuntan a su sitio web.

La funcionalidad de A-Parser permite guardar la configuración de la extracción de datos para su uso posterior (ajustes preestablecidos), programar tareas de extracción y mucho más.

Es posible guardar los resultados en el formato y la estructura que necesite, gracias al potente motor de plantillas integrado Template Toolkit, que permite aplicar lógica adicional a los resultados y exportar datos en varios formatos, incluidos JSON, SQL y CSV.

Casos de uso del extractor

Datos recopilados

  • Suma de enlaces externos e internos en la página
  • Verifica la presencia del enlace en la página especificada: 0 y 1
    • 0 - significa que no hay una coincidencia exacta del backlink
    • 1 - significa que hay una coincidencia exacta del backlink
  • Bloqueo de la página especificada para su visualización mediante robots.txt: 0 y 1
  • Bloqueo de la indexación de la página mediante la metaetiqueta robots con el atributo noindex, así como el bloqueo del seguimiento del enlace mediante el atributo nofollow
  • Bloqueo del seguimiento del enlace mediante el atributo rel=nofollow

Datos adicionales que se pueden obtener:

  • Número de enlaces externos e internos en la página
  • Lista de todos los enlaces externos e internos en la página

Capacidades

  • Verifica la presencia de un enlace en la página especificada, con la posibilidad de buscar el enlace sin especificar el esquema mediante la coincidencia de cadena
  • Verifica si la página está bloqueada para la indexación mediante robots.txt
  • Verifica la metaetiqueta robots en busca de los atributos noindex y nofollow
  • Verifica la presencia de rel=nofollow en el enlace encontrado
  • Búsqueda de enlace por coincidencia de cadena
  • Posibilidad de especificar su propio encabezado User-Agent

Variantes de uso

  • Verificación de la colocación de sus propios enlaces en las páginas especificadas
  • Búsqueda de enlaces que se muestran solo a un User-Agent específico (por ejemplo, para el bot de Google)

Consultas

Como consultas, es necesario indicar la página donde buscar el enlace y, tras un espacio, indicar el enlace buscado:

https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/

Sustituciones en consultas

Puede utilizar macros integradas para la sustitución automática de subconsultas desde archivos; por ejemplo, si queremos verificar sitios basándonos en una lista de páginas, indicamos la lista de páginas donde buscar los enlaces:

https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/

En el formato de consultas, indicamos la macro para sustituir consultas adicionales desde el archivo backlinks.txt; este método permite verificar una base de sitios para encontrar una lista de enlaces del archivo:

$query {subs:backlinks}

Esta macro creará tantas consultas adicionales como haya en el archivo por cada consulta de búsqueda inicial, lo que resultará en: [cantidad de consultas iniciales (enlaces a páginas)] x [cantidad de consultas en el archivo backlinks] = [cantidad total de consultas] como resultado del trabajo de la macro.

También se puede especificar el protocolo en el formato de consultas para poder usar solo dominios como consultas:

http://$query 

Este formato añadirá http:// a cada consulta.

Variantes de salida de resultados

A-Parser admite un formateo flexible de resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite mostrar los resultados en forma libre, así como estructurada, por ejemplo, CSV o JSON.

Salida por defecto

Formato del resultado:

$backlink - $checklink: $exists, blocked by robots.txt: $robots\n

Ejemplo de resultado, en el que se muestra el backlink, el enlace a la página donde se realiza la búsqueda, la presencia o ausencia del backlink y la verificación de bloqueo de la página en el archivo robots.txt:

http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0

Salida de presencia de backlinks y parámetros adicionales para el análisis en una tabla CSV

La utilidad integrada $tools.CSVLine permite crear documentos tabulares correctos, listos para importar en Excel o Google Sheets.

El resultado de la variable $actualchecklink solo existe si el backlink está presente en la página; si no hay backlink, el resultado de esta variable será none. $actualbacklink y $actualchecklink son los enlaces reales después de cualquier redirección.

Formato del resultado:

[% tools.CSVline(backlink, checklink, anchor, nofollow, noindex, redirect, exists, robots, actualbacklink, actualchecklink, intcount, extcount) %]

Nombre del archivo:

$datefile.format().csv

Texto inicial:

Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count

Ejemplo de resultado:

https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Descargar ejemplo

Cómo importar el ejemplo en A-Parser

eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=

sugerencia

En el Formato de resultados se aplica el motor de plantillas Template Toolkit.

Qué es el formato de resultados.

En el nombre del archivo de resultados, simplemente cambie la extensión del archivo a csv.

Para que la opción "Texto inicial" esté disponible en el Editor de tareas, debe activar "Más opciones". En "Texto inicial", escriba los nombres de las columnas separados por comas y deje la segunda línea vacía.

Volcado de enlaces externos de la página del backlink a JSON

Formato del resultado:

[% data = {}; 
data.query = query; data.links = [];
FOREACH item IN extlinks;
data.links.push(item.link);
END;
IF !firstString;
",\n";
ELSE;
firstString = 0;
END;
data.json %]

Texto inicial:

[% firstString = 1 %][

Texto final:

]

Ejemplo de resultado:

[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]

Procesamiento de resultados

A-Parser permite procesar los resultados directamente durante la extracción de datos; en esta sección presentamos los casos más populares para el extractor Check::BackLink.

Añada un filtro y, en la lista desplegable, seleccione la variable de confianza $exists - Link exists. Seleccione el tipo: String equals. Luego, en el campo String (Cadena), escriba el valor que equivale a la presencia del backlink: 1. Con este filtro podrá mostrar todos los resultados con presencia de backlink.

Añada el Results Builder (Constructor de resultados) y, en la lista desplegable, seleccione la fuente: $p1.extlinks.$i.link - Link. Seleccione el tipo: Extract Top Domain. Así obtenemos los dominios de los enlaces externos.

Ejemplo de uso de filtro y Constructor de resultados
Descargar ejemplo

Cómo importar el ejemplo en A-Parser

eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=
sugerencia

El Constructor de resultados se puede añadir tantas veces como sea necesario.

Ver también:

Configuraciones posibles

Soporta todas las configuraciones del extractor HTML::LinkExtractorHTML::LinkExtractor, así como adicionalmente:

Nombre del parámetroValor por defectoDescripción
Check robots.txtDetermina si se debe verificar la prohibición de indexación de la página mediante robots.txt
Match link by substringDetermina si se debe realizar la búsqueda del enlace por coincidencia de cadena. Se pueden verificar enlaces sin especificar el esquema, por ejemplo, por dominio sin indicar el protocolo http