Vai al contenuto principale

Check::BackLink - verifica la presenza di link in un database di link

Panoramica dello scraper

Panoramica dello scraper: velocità operativa

Lo scraper consente di verificare i backlink, ovvero i link sulle pagine dei siti che rimandano al tuo sito.

La funzionalità di A-Parser permette di salvare le impostazioni di scraping per un uso futuro (preset), impostare una pianificazione dello scraping e molto altro ancora.

Il salvataggio dei risultati è possibile nella forma e nella struttura desiderata, grazie al potente motore di modelli integrato Template Toolkit che consente di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, tra cui JSON, SQL e CSV.

Casi d'uso dello scraper

Dati raccolti

  • Somma dei link esterni e interni sulla pagina
  • Verifica la presenza del link sulla pagina specificata: 0 e 1
    • 0 - significa che non c'è una corrispondenza esatta del backlink
    • 1 - significa che c'è una corrispondenza esatta del backlink
  • Blocco della pagina specificata dalla visualizzazione tramite robots.txt - 0 e 1
  • Blocco dell'indicizzazione della pagina tramite il meta tag robots con l'attributo noindex, così come il blocco del passaggio tramite il link con l'attributo nofollow
  • Blocco del passaggio tramite il link con l'attributo rel=nofollow

Dati aggiuntivi che possono essere ottenuti:

  • Numero di link esterni e interni sulla pagina
  • Elenco di tutti i link esterni e interni sulla pagina

Funzionalità

  • Verifica la presenza del link sulla pagina specificata, con la possibilità di cercare il link senza specificare lo schema tramite occorrenza di stringa
  • Verifica se la pagina è bloccata dall'indicizzazione tramite robots.txt
  • Verifica il meta tag robots per la presenza degli attributi noindex e nofollow
  • Verifica la presenza di rel=nofollow nel link trovato
  • Ricerca del link tramite occorrenza di stringa
  • Possibilità di specificare il proprio header User-Agent

Varianti di utilizzo

  • Verifica del posizionamento dei propri link sulle pagine specificate
  • Ricerca di link visualizzati solo a un determinato User-Agent (ad esempio per il bot di Google)

Query

Come query è necessario indicare la pagina in cui cercare il link e, separato da uno spazio, indicare il link cercato:

https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/

Sostituzioni nelle query

Puoi utilizzare le macro integrate per la sostituzione automatica di sotto-query da file; ad esempio, se vogliamo controllare dei siti rispetto a un database di pagine, indichiamo l'elenco delle pagine in cui cercare i link:

https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/

Nel formato delle query indichiamo la macro per la sostituzione di query aggiuntive dal file backlinks.txt; questo metodo permette di controllare un database di siti per la presenza di un elenco di link dal file:

$query {subs:backlinks}

Questa macro creerà tante query aggiuntive quante ne sono presenti nel file per ogni query di ricerca iniziale, il che risulterà in: [numero di query iniziali (link alle pagine)] x [numero di query nel file backlinks] = [numero totale di query] come risultato del lavoro della macro.

È anche possibile specificare il protocollo nel formato delle query, in modo da poter utilizzare solo i domini come query:

http://$query 

Questo formato aggiungerà http:// a ogni query.

Varianti di output dei risultati

A-Parser supporta una formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma arbitraria o strutturata, come CSV o JSON.

Output predefinito

Formato del risultato:

$backlink - $checklink: $exists, blocked by robots.txt: $robots\n

Esempio di risultato, in cui vengono visualizzati il backlink, il link alla pagina dove viene effettuata la ricerca, la presenza o assenza del backlink e il controllo della pagina per il blocco nel file robots.txt:

http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0

Output della presenza di backlink e parametri aggiuntivi per l'analisi in una tabella CSV

L'utility integrata $tools.CSVLine consente di creare documenti tabulari corretti, pronti per l'importazione in Excel o Google Fogli.

Il risultato della variabile $actualchecklink è presente solo se sulla pagina è presente il backlink; se il backlink non c'è, il risultato di questa variabile sarà none. $actualbacklink e $actualchecklink sono i link reali dopo il redirect.

Formato del risultato:

[% tools.CSVline(backlink, checklink, anchor, nofollow, noindex, redirect, exists, robots, actualbacklink, actualchecklink, intcount, extcount) %]

Nome del file:

$datefile.format().csv

Testo iniziale:

Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count

Esempio di risultato:

https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Scarica esempio

Come importare l'esempio in A-Parser

eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=

suggerimento

Nel Formato dei risultati viene utilizzato il motore di modelli Template Toolkit.

Cos'è il formato dei risultati.

Nel nome del file dei risultati è sufficiente cambiare l'estensione del file in csv.

Affinché l'opzione "Prepend text" sia disponibile nell'Editor delle attività, è necessario attivare "More options". In "Prepend text" scriviamo i nomi delle colonne separati da virgola e lasciamo la seconda riga vuota.

Dump dei link esterni dalla pagina del backlink in JSON

Formato del risultato:

[% data = {}; 
data.query = query; data.links = [];
FOREACH item IN extlinks;
data.links.push(item.link);
END;
IF !firstString;
",\n";
ELSE;
firstString = 0;
END;
data.json %]

Testo iniziale:

[% firstString = 1 %][

Testo finale:

]

Esempio di risultato:

[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]

Elaborazione dei risultati

A-Parser consente di elaborare i risultati direttamente durante lo scraping; in questa sezione abbiamo riportato i casi più popolari per lo scraper Check::BackLink

Aggiungere un filtro e selezionare nel menu a discesa la variabile di trust $exists - Link exists. Selezionare il tipo: String equal. Successivamente, nel campo String (Stringa), inserire il valore corrispondente alla presenza del backlink 1. Con questo filtro potrai visualizzare tutti i risultati con presenza di backlink.

Aggiungere il Result Builders (Costruttore di risultati) e selezionare nel menu a discesa la fonte: $p1.extlinks.$i.link - Link. Selezionare il tipo: Extract Top Domain. In questo modo otteniamo i domini dai link esterni.

Esempio di utilizzo di un filtro e del Costruttore di risultati
Scarica esempio

Come importare l'esempio in A-Parser

eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=
suggerimento

Il Costruttore di risultati può essere aggiunto quante volte necessario.

Vedi anche:

Impostazioni possibili

Supporta tutte le impostazioni dello scraper HTML::LinkExtractorHTML::LinkExtractor, oltre a quanto segue:

Nome parametroValore predefinitoDescrizione
Check robots.txtDetermina se verificare il divieto di indicizzazione della pagina tramite robots.txt
Match link by substringDetermina se effettuare la ricerca del link tramite occorrenza di stringa. È possibile verificare i link senza specificare lo schema, ad esempio tramite il dominio senza indicare il protocollo http