Passer au contenu principal

Check::BackLink - vérifie la présence de lien(s) dans une base de liens

Présentation du scraper

Présentation du scraper : vitesse de fonctionnement

Le scraper permet de vérifier les liens retours (backlinks), à savoir les liens sur les pages de sites qui pointent vers votre site.

La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore.

La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV.

Cas d'utilisation du scraper

Données collectées

  • Somme des liens externes et internes sur la page
  • Vérifie la présence du lien sur la page indiquée 0 et 1
    • 0 - signifie qu'il n'y a pas de correspondance exacte du backlink
    • 1 - signifie qu'il y a une correspondance exacte du backlink
  • Blocage de la page indiquée contre la consultation via robots.txt - 0 et 1
  • Blocage de l'indexation de la page via la balise méta robots avec l'attribut noindex, ainsi que le blocage du suivi du lien via l'attribut nofollow
  • Blocage du suivi du lien via l'attribut rel=nofollow

Données supplémentaires pouvant être obtenues :

  • Nombre de liens externes et internes sur la page
  • Liste de tous les liens externes et internes sur la page

Possibilités

  • Vérifie la présence du lien sur la page indiquée, avec la possibilité de rechercher le lien sans spécifier le schéma par occurrence de chaîne
  • Vérifie si la page est interdite d'indexation via robots.txt
  • Vérifie la balise méta robots pour la présence des attributs noindex et nofollow
  • Vérifie la présence de rel=nofollow pour le lien trouvé
  • Recherche de lien par occurrence de chaîne
  • Possibilité de spécifier son propre en-tête User-Agent

Variantes d'utilisation

  • Vérification du placement de ses propres liens sur les pages indiquées
  • Recherche de liens affichés uniquement pour un certain User-Agent (par exemple pour le bot Google)

Requêtes

En tant que requêtes, il est nécessaire d'indiquer la page sur laquelle chercher le lien et, après un espace, indiquer le lien recherché :

https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/

Substitutions de requêtes

Vous pouvez utiliser les macros intégrées pour la substitution automatique de sous-requêtes à partir de fichiers, par exemple si nous voulons vérifier des sites/un site par rapport à une base de pages, indiquons la liste des pages sur lesquelles chercher les liens :

https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/

Dans le format des requêtes, indiquons la macro de substitution de requêtes supplémentaires à partir du fichier backlinks.txt, cette méthode permet de vérifier une base de sites pour la présence d'une liste de liens provenant d'un fichier :

$query {subs:backlinks}

Cette macro créera autant de requêtes supplémentaires qu'il y en a dans le fichier pour chaque requête de recherche initiale, ce qui donnera au total [nombre de requêtes initiales (liens vers les pages)] x [nombre de requêtes dans le fichier backlinks] = [nombre total de requêtes] suite au travail de la macro.

Il est également possible d'indiquer le protocole dans le format des requêtes pour pouvoir utiliser uniquement des domaines comme requêtes :

http://$query 

Ce format ajoutera http:// à chaque requête.

Variantes d'affichage des résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre, ainsi que structurée, par exemple CSV ou JSON

Affichage par défaut

Format du résultat :

$backlink - $checklink: $exists, blocked by robots.txt: $robots\n

Exemple de résultat affichant le backlink, le lien vers la page où s'effectue la recherche du backlink, la présence ou l'absence du backlink, et la vérification de la page pour le blocage dans le fichier robots.txt :

http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0

Affichage de la présence de backlinks et de paramètres supplémentaires pour l'analyse des backlinks et des pages avec backlinks dans un tableau CSV

L'utilitaire intégré $tools.CSVLine permet de créer des documents tabulaires corrects, prêts pour l'importation dans Excel ou Google Sheets.

Le résultat de la variable $actualchecklink n'existe que si un backlink est présent sur la page ; si le backlink est absent, le résultat de cette variable sera none. $actualbacklink et $actualchecklink sont les liens réels après redirection.

Format du résultat :

[% tools.CSVline(backlink, checklink, anchor, nofollow, noindex, redirect, exists, robots, actualbacklink, actualchecklink, intcount, extcount) %]

Nom du fichier :

$datefile.format().csv

Texte initial :

Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count

Exemple de résultat :

https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Télécharger l'exemple

Comment importer l'exemple dans A-Parser

eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=

astuce

Dans le Format des résultats, le moteur de gabarits Template Toolkit est appliqué.

Qu'est-ce que le format des résultats.

Dans le nom du fichier de résultats, il suffit de changer l'extension du fichier en csv.

Pour que l'option "Texte initial" soit disponible dans l'Éditeur de tâches, il faut activer "Plus d'options". Dans "Texte initial", nous inscrivons les noms des colonnes séparés par des virgules et nous laissons la deuxième ligne vide.

Dump des liens externes de la page du backlink en JSON

Format du résultat :

[% data = {}; 
data.query = query; data.links = [];
FOREACH item IN extlinks;
data.links.push(item.link);
END;
IF !firstString;
",\n";
ELSE;
firstString = 0;
END;
data.json %]

Texte initial :

[% firstString = 1 %][

Texte final :

]

Exemple de résultat :

[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]

Traitement des résultats

A-Parser permet de traiter les résultats directement pendant la collecte de données, dans cette section nous avons présenté les cas les plus populaires pour le scraper Check::BackLink

Ajouter un filtre et dans la liste déroulante choisir la variable de confiance $exists - Link exists. Choisir le type : String equals. Ensuite, il faut inscrire dans le champ String (Chaîne) la valeur qui correspond à la présence du backlink 1. Avec ce filtre, vous pourrez afficher tous les résultats ayant un backlink.

Ajouter le Results Builder (Constructeur de résultats) et dans la liste déroulante choisir la source : $p1.extlinks.$i.link - Link. Choisir le type : Extract Top Domain. Ainsi, nous obtenons les domaines à partir des liens externes.

Exemple d'utilisation d'un filtre et du Constructeur de résultats
Télécharger l'exemple

Comment importer l'exemple dans A-Parser

eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=
astuce

Le Constructeur de résultats peut être ajouté autant de fois que vous le souhaitez.

Voir aussi :

Paramètres possibles

Prend en charge tous les paramètres du scraper HTML::LinkExtractorHTML::LinkExtractor, ainsi que les éléments suivants :

Nom du paramètreValeur par défautDescription
Check robots.txtDétermine s'il faut vérifier l'interdiction d'indexation de la page via robots.txt
Match link by substringDétermine s'il faut effectuer une recherche de lien par occurrence de chaîne. On peut vérifier les liens sans spécifier le schéma, par exemple par domaine sans spécifier le protocole http