Przejdź do treści głównej

Check::BackLink - sprawdza obecność linku (linków) w bazie linków

Przegląd scrapera

Przegląd scrapera: prędkość pracy

Scraper pozwala sprawdzać linki zwrotne (backlinks), a mianowicie linki na stronach witryn, które prowadzą do Twojej witryny.

Funkcjonalność A-Parser pozwala zapisywać ustawienia scrapowania do późniejszego wykorzystania (presety), ustawiać harmonogram scrapowania i wiele więcej.

Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala stosować dodatkową logikę do wyników i wyprowadzać dane w różnych formatach, w tym JSON, SQL i CSV.

Przypadki użycia scrapera

Zbierane dane

  • Suma linków zewnętrznych i wewnętrznych na stronie
  • Sprawdza obecność linku na wskazanej stronie: 0 i 1
    • 0 - oznacza brak dokładnego dopasowania linku zwrotnego
    • 1 - oznacza istnienie dokładnego dopasowania linku zwrotnego
  • Blokowanie wskazanej strony przed przeglądaniem przez robots.txt - 0 i 1
  • Blokowanie indeksowania strony przez metatag robots z atrybutem noindex, a także blokowanie podążania za linkiem przez atrybut nofollow
  • Blokowanie podążania za linkiem przez atrybut rel=nofollow

Dodatkowe dane, które można uzyskać:

  • Liczba linków zewnętrznych i wewnętrznych na stronie
  • Lista wszystkich linków zewnętrznych i wewnętrznych na stronie

Możliwości

  • Sprawdza obecność linku na wskazanej stronie, z możliwością wyszukiwania linku bez podawania schematu (protokołu) poprzez dopasowanie ciągu znaków
  • Sprawdza, czy strona jest zablokowana przed indeksowaniem przez robots.txt
  • Sprawdza metatag robots pod kątem atrybutów noindex i nofollow
  • Sprawdza obecność rel=nofollow przy znalezionym linku
  • Wyszukiwanie linku po wystąpieniu ciągu znaków
  • Możliwość wskazania własnego nagłówka User-Agent

Warianty użycia

  • Sprawdzanie rozmieszczenia własnych linków na wskazanych stronach
  • Wyszukiwanie linków wyświetlanych tylko dla określonego User-Agent (na przykład dla bota Google)

Zapytania

Jako zapytania należy podawać stronę, na której ma być szukany link, a po spacji szukany link:

https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/

Podstawienia w zapytaniach

Możesz używać wbudowanych makr do automatycznego podstawiania podzapytań z plików. Na przykład, jeśli chcemy sprawdzić witryny na podstawie bazy stron, podajemy listę stron, na których szukamy linków:

https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/

W formacie zapytań wskazujemy makro podstawiania dodatkowych zapytań z pliku backlinks.txt. Ta metoda pozwala sprawdzać bazę witryn pod kątem listy linków z pliku:

$query {subs:backlinks}

To makro utworzy tyle dodatkowych zapytań, ile znajduje się w pliku dla każdego wyjściowego zapytania, co w sumie da [liczba zapytań wyjściowych (linki do stron)] x [liczba zapytań w pliku backlinks] = [całkowita liczba zapytań] w wyniku działania makra.

Można również wskazać protokół w formacie zapytań, aby jako zapytania móc stosować same domeny:

http://$query 

Taki format doda http:// do każdego zapytania.

Warianty wyprowadzania wyników

A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala na wyprowadzanie wyników w dowolnej formie, a także w strukturze takiej jak CSV lub JSON.

Domyślne wyprowadzanie

Format wyniku:

$backlink - $checklink: $exists, blocked by robots.txt: $robots\n

Przykład wyniku, w którym wyświetlony jest link zwrotny, link do strony przeszukiwanej, obecność lub brak linku zwrotnego oraz sprawdzenie blokady strony w pliku robots.txt:

http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0

Wyprowadzanie obecności linków zwrotnych i dodatkowych parametrów do analizy do tabeli CSV

Wbudowane narzędzie $tools.CSVLine pozwala tworzyć poprawne dokumenty tabelaryczne, gotowe do importu do Excela lub Arkuszy Google.

Wynik zmiennej $actualchecklink pojawia się tylko wtedy, gdy na stronie znajduje się link zwrotny; jeśli go nie ma, wynik tej zmiennej to none. $actualbacklink i $actualchecklink to rzeczywiste linki po przekierowaniu.

Format wyniku:

[% tools.CSVline(backlink, checklink, anchor, nofollow, noindex, redirect, exists, robots, actualbacklink, actualchecklink, intcount, extcount) %]

Nazwa pliku:

$datefile.format().csv

Tekst początkowy:

Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count

Przykład wyniku:

https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Pobierz przykład

Jak zaimportować przykład do A-Parser

eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=

wskazówka

W formacie wyników stosowany jest silnik szablonów Template Toolkit.

Co to jest format wyników.

W nazwie pliku wyników wystarczy zmienić rozszerzenie pliku na csv.

Aby opcja "Prepend text" była dostępna w Edytorze zadań, należy aktywować "More options". W "Prepend text" wpisujemy nazwy kolumn oddzielone przecinkami, a drugą linię pozostawiamy pustą.

Zrzut linków zewnętrznych ze strony linku zwrotnego do JSON

Format wyniku:

[% data = {}; 
data.query = query; data.links = [];
FOREACH item IN extlinks;
data.links.push(item.link);
END;
IF !firstString;
",\n";
ELSE;
firstString = 0;
END;
data.json %]

Tekst początkowy:

[% firstString = 1 %][

Tekst końcowy:

]

Przykład wyniku:

[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]

Przetwarzanie wyników

A-Parser pozwala przetwarzać wyniki bezpośrednio podczas scrapowania. W tej sekcji przedstawiliśmy najpopularniejsze przypadki dla scrapera Check::BackLink.

Dodaj filtr i z listy rozwijanej wybierz zmienną statusu $exists - Link exists. Wybierz typ: String equal. Następnie w polu String (Ciąg znaków) wpisz wartość odpowiadającą obecności linku zwrotnego: 1. Dzięki takiemu filtrowi będziesz mógł wyprowadzić wszystkie wyniki z obecnym linkiem zwrotnym.

Dodaj Result Builders (Konstruktor wyników) i z listy rozwijanej wybierz źródło: $p1.extlinks.$i.link - Link. Wybierz typ: Extract Top Domain. W ten sposób otrzymasz domeny z linków zewnętrznych.

Przykład użycia filtra i Konstruktora wyników
Pobierz przykład

Jak zaimportować przykład do A-Parser

eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=
wskazówka

Konstruktor wyników można dodać tyle razy, ile jest potrzebne.

Zobacz również:

Możliwe ustawienia

Obsługuje wszystkie ustawienia scrapera HTML::LinkExtractorHTML::LinkExtractor, a także dodatkowo:

Nazwa parametruWartość domyślnaOpis
Check robots.txtOkreśla, czy sprawdzać zakaz indeksowania strony przez robots.txt
Match link by substringOkreśla, czy wyszukiwać link po wystąpieniu ciągu znaków. Można sprawdzać linki bez podawania schematu, np. po domenie bez wskazania protokołu http