Hoppa till huvudinnehåll

Check::BackLink - kontrollerar förekomsten av länk(ar) i en länkdatabas

Översikt av scrapern

Översikt av scrapern: arbetshastighet

Denna scraper gör det möjligt att kontrollera backlänkar (backlinks), närmare bestämt länkar på webbsidor som länkar till din webbplats.

Funktionaliteten i A-Parser gör det möjligt att spara inställningar för dataskrapning för framtida bruk (förinställningar), schemalägga dataskrapning och mycket mer.

Spara resultat är möjligt i den form och struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.

Användningsfall för scrapern

Insamlade data

  • Summan av externa och interna länkar på sidan
  • Kontrollerar förekomst av länk på den angivna sidan 0 och 1
    • 0 - betyder att det inte finns någon exakt matchning av backlänken
    • 1 - betyder att det finns en exakt matchning av backlänken
  • Blockering av den angivna sidan från visning via robots.txt - 0 och 1
  • Blockering av sidindexering via meta-taggen robots med attributet noindex, samt blockering av länkföljning via attributet nofollow
  • Blockering av länkföljning via attributet rel=nofollow

Ytterligare data som kan erhållas:

  • Antal externa och interna länkar på sidan
  • Lista över alla externa och interna länkar på sidan

Funktioner

  • Kontrollerar förekomst av länk på den angivna sidan, med möjlighet att söka efter länk utan att ange schema genom strängmatchning
  • Kontrollerar om sidan är spärrad för indexering via robots.txt
  • Kontrollerar meta-taggen robots för attributen noindex och nofollow
  • Kontrollerar förekomst av rel=nofollow på den hittade länken
  • Sökning av länk genom strängmatchning
  • Möjlighet att ange en egen User-Agent-header

Användningsområden

  • Kontroll av placering av egna länkar på angivna sidor
  • Sökning efter länkar som endast visas för en viss User-Agent (till exempel för Google-bot)

Frågor

Som frågor måste du ange sidan där länken ska sökas och efter ett mellanslag ange den länk som söks:

https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/

Frågesubstitutioner

Du kan använda inbyggda makron för automatisk substitution av underfrågor från filer, till exempel om vi vill kontrollera webbplatser mot en databas med sidor, anger vi en lista över sidor där länkar ska sökas:

https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/

I frågeformatet anger vi ett makro för substitution av ytterligare frågor från filen backlinks.txt, denna metod gör det möjligt att kontrollera en databas med webbplatser för förekomst av en lista med länkar från filen:

$query {subs:backlinks}

Detta makro skapar lika många ytterligare frågor som det finns i filen för varje ursprunglig sökfråga, vilket resulterar i [antal ursprungliga frågor (länkar till sidor)] x [antal frågor i filen backlinks] = [totalt antal frågor] som ett resultat av makrots arbete.

Man kan även ange protokoll i frågeformatet så att endast domäner kan användas som frågor:

http://$query 

Detta format lägger till http:// framför varje fråga.

Exempel på resultatutdata

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör det möjligt att exportera resultat i valfri form, samt i strukturerad form som CSV eller JSON

Standardutdata

Resultatformat:

$backlink - $checklink: $exists, blocked by robots.txt: $robots\n

Exempel på resultat där backlänken visas, länken till sidan där sökningen sker, förekomst eller avsaknad av backlänken, samt kontroll av om sidan är blockerad i robots.txt:

http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0

Utdata av backlänksförekomst och ytterligare parametrar för analys av backlänkar och sidor till en CSV-tabell

Det inbyggda verktyget $tools.CSVLine gör det möjligt att skapa korrekta tabelldokument, redo för import till Excel eller Google Kalkylark.

Resultatet för variabeln $actualchecklink finns endast om backlänken finns på sidan; om backlänken saknas blir resultatet för denna variabel none. $actualbacklink och $actualchecklink är de faktiska länkarna efter omdirigering (redirect).

Resultatformat:

[% tools.CSVline(backlink, checklink, anchor, nofollow, noindex, redirect, exists, robots, actualbacklink, actualchecklink, intcount, extcount) %]

Filnamn:

$datefile.format().csv

Starttext:

Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count

Exempel på resultat:

https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Ladda ner exempel

Hur man importerar ett exempel till A-Parser

eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=

tips

I resultatformatet används mallmotorn Template Toolkit.

Vad är resultatformat.

I namnet på resultatfilen behöver du bara ändra filändelsen till csv.

För att alternativet "Prepend text" ska vara tillgängligt i Task Editor, måste du aktivera "More options". I "Prepend text" skriver vi kolumnnamnen separerade med kommatecken och gör den andra raden tom.

Dumpning av externa länkar från backlänkssidan till JSON

Resultatformat:

[% data = {}; 
data.query = query; data.links = [];
FOREACH item IN extlinks;
data.links.push(item.link);
END;
IF !firstString;
",\n";
ELSE;
firstString = 0;
END;
data.json %]

Starttext:

[% firstString = 1 %][

Sluttext:

]

Exempel på resultat:

[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]

Bearbetning av resultat

A-Parser gör det möjligt att bearbeta resultat direkt under dataskrapningen. I detta avsnitt har vi listat de mest populära fallen för scrapern Check::BackLink

Lägg till ett filter och välj trust-variabeln $exists - Link exists i rullgardinsmenyn. Välj typ: String equal. Skriv sedan in värdet i fältet String (Sträng) som motsvarar förekomst av backlänk 1. Med detta filter kan du visa alla resultat där en backlänk finns.

Lägg till Result Builders (Result Constructor) och välj källan i rullgardinsmenyn: $p1.extlinks.$i.link - Link. Välj typ: Extract Top Domain. På så sätt får vi domäner från de externa länkarna.

Exempel på användning av filter och Result Constructor
Ladda ner exempel

Hur man importerar ett exempel till A-Parser

eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=
tips

Result Constructor kan läggas till så många gånger som du behöver.

Se även:

Möjliga inställningar

Stöder alla inställningar för scrapern HTML::LinkExtractorHTML::LinkExtractor, samt dessutom:

ParameternamnStandardvärdeBeskrivning
Check robots.txtAvgör om förbud mot sidindexering via robots.txt ska kontrolleras
Match link by substringAvgör om sökning efter länk ska ske genom strängmatchning. Man kan kontrollera länkar utan att ange schema, till exempel via domän utan att ange http-protokoll