Check::BackLink - verifica la presenza di link in un database di link
Panoramica dello scraper

Lo scraper consente di verificare i backlink, ovvero i link sulle pagine dei siti che rimandano al tuo sito.
La funzionalità di A-Parser permette di salvare le impostazioni di scraping per un uso futuro (preset), impostare una pianificazione dello scraping e molto altro ancora.
Il salvataggio dei risultati è possibile nella forma e nella struttura desiderata, grazie al potente motore di modelli integrato Template Toolkit che consente di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, tra cui JSON, SQL e CSV.
Casi d'uso dello scraper
🔗 Monitoraggio dei backlink
Controllo periodico dei backlink con aggiunta dei risultati in una tabella del database SQLite
Dati raccolti
- Somma dei link esterni e interni sulla pagina
- Verifica la presenza del link sulla pagina specificata:
0e10- significa che non c'è una corrispondenza esatta del backlink1- significa che c'è una corrispondenza esatta del backlink
- Blocco della pagina specificata dalla visualizzazione tramite robots.txt -
0e1 - Blocco dell'indicizzazione della pagina tramite il meta tag robots con l'attributo
noindex, così come il blocco del passaggio tramite il link con l'attributonofollow - Blocco del passaggio tramite il link con l'attributo
rel=nofollow
Dati aggiuntivi che possono essere ottenuti:
- Numero di link esterni e interni sulla pagina
- Elenco di tutti i link esterni e interni sulla pagina
Funzionalità
- Verifica la presenza del link sulla pagina specificata, con la possibilità di cercare il link senza specificare lo schema tramite occorrenza di stringa
- Verifica se la pagina è bloccata dall'indicizzazione tramite robots.txt
- Verifica il meta tag robots per la presenza degli attributi
noindexenofollow - Verifica la presenza di
rel=nofollownel link trovato - Ricerca del link tramite occorrenza di stringa
- Possibilità di specificare il proprio header User-Agent
Varianti di utilizzo
- Verifica del posizionamento dei propri link sulle pagine specificate
- Ricerca di link visualizzati solo a un determinato User-Agent (ad esempio per il bot di Google)
Query
Come query è necessario indicare la pagina in cui cercare il link e, separato da uno spazio, indicare il link cercato:
https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/
Sostituzioni nelle query
Puoi utilizzare le macro integrate per la sostituzione automatica di sotto-query da file; ad esempio, se vogliamo controllare dei siti rispetto a un database di pagine, indichiamo l'elenco delle pagine in cui cercare i link:
https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/
Nel formato delle query indichiamo la macro per la sostituzione di query aggiuntive dal file backlinks.txt; questo metodo permette di controllare un database di siti per la presenza di un elenco di link dal file:
$query {subs:backlinks}
Questa macro creerà tante query aggiuntive quante ne sono presenti nel file per ogni query di ricerca iniziale, il che risulterà in: [numero di query iniziali (link alle pagine)] x [numero di query nel file backlinks] = [numero totale di query] come risultato del lavoro della macro.
È anche possibile specificare il protocollo nel formato delle query, in modo da poter utilizzare solo i domini come query:
http://$query
Questo formato aggiungerà http:// a ogni query.
Varianti di output dei risultati
A-Parser supporta una formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma arbitraria o strutturata, come CSV o JSON.
Output predefinito
Formato del risultato:
$backlink - $checklink: $exists, blocked by robots.txt: $robots\n
Esempio di risultato, in cui vengono visualizzati il backlink, il link alla pagina dove viene effettuata la ricerca, la presenza o assenza del backlink e il controllo della pagina per il blocco nel file robots.txt:
http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0
Output della presenza di backlink e parametri aggiuntivi per l'analisi in una tabella CSV
L'utility integrata $tools.CSVLine consente di creare documenti tabulari corretti, pronti per l'importazione in Excel o Google Fogli.
Il risultato della variabile $actualchecklink è presente solo se sulla pagina è presente il backlink; se il backlink non c'è, il risultato di questa variabile sarà none. $actualbacklink e $actualchecklink sono i link reali dopo il redirect.
Formato del risultato:
[% tools.CSVline(backlink, checklink, anchor, nofollow, noindex, redirect, exists, robots, actualbacklink, actualchecklink, intcount, extcount) %]
Nome del file:
$datefile.format().csv
Testo iniziale:
Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count
Esempio di risultato:
https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Scarica esempio
Come importare l'esempio in A-Parser
eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=
Nel Formato dei risultati viene utilizzato il motore di modelli Template Toolkit.
Cos'è il formato dei risultati.
Nel nome del file dei risultati è sufficiente cambiare l'estensione del file in csv.
Affinché l'opzione "Prepend text" sia disponibile nell'Editor delle attività, è necessario attivare "More options". In "Prepend text" scriviamo i nomi delle colonne separati da virgola e lasciamo la seconda riga vuota.
Dump dei link esterni dalla pagina del backlink in JSON
Formato del risultato:
[% data = {};
data.query = query; data.links = [];
FOREACH item IN extlinks;
data.links.push(item.link);
END;
IF !firstString;
",\n";
ELSE;
firstString = 0;
END;
data.json %]
Testo iniziale:
[% firstString = 1 %][
Testo finale:
]
Esempio di risultato:
[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]
Elaborazione dei risultati
A-Parser consente di elaborare i risultati direttamente durante lo scraping; in questa sezione abbiamo riportato i casi più popolari per lo scraper Check::BackLink
Salvataggio dei domini dei link esterni in presenza di backlink
Aggiungere un filtro e selezionare nel menu a discesa la variabile di trust $exists - Link exists. Selezionare il tipo: String equal. Successivamente, nel campo String (Stringa), inserire il valore corrispondente alla presenza del backlink 1. Con questo filtro potrai visualizzare tutti i risultati con presenza di backlink.
Aggiungere il Result Builders (Costruttore di risultati) e selezionare nel menu a discesa la fonte: $p1.extlinks.$i.link - Link. Selezionare il tipo: Extract Top Domain. In questo modo otteniamo i domini dai link esterni.

Scarica esempio
Come importare l'esempio in A-Parser
eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=
Il Costruttore di risultati può essere aggiunto quante volte necessario.
Vedi anche:
Impostazioni possibili
Supporta tutte le impostazioni dello scraper
HTML::LinkExtractor, oltre a quanto segue:
| Nome parametro | Valore predefinito | Descrizione |
|---|---|---|
| Check robots.txt | ☑ | Determina se verificare il divieto di indicizzazione della pagina tramite robots.txt |
| Match link by substring | ☐ | Determina se effettuare la ricerca del link tramite occorrenza di stringa. È possibile verificare i link senza specificare lo schema, ad esempio tramite il dominio senza indicare il protocollo http |