Check::BackLink - sprawdza obecność linku (linków) w bazie linków
Przegląd scrapera

Scraper pozwala sprawdzać linki zwrotne (backlinks), a mianowicie linki na stronach witryn, które prowadzą do Twojej witryny.
Funkcjonalność A-Parser pozwala zapisywać ustawienia scrapowania do późniejszego wykorzystania (presety), ustawiać harmonogram scrapowania i wiele więcej.
Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala stosować dodatkową logikę do wyników i wyprowadzać dane w różnych formatach, w tym JSON, SQL i CSV.
Przypadki użycia scrapera
🔗 Monitorowanie linków zwrotnych
Okresowe sprawdzanie linków zwrotnych z dopisywaniem wyników do tabeli bazy danych SQLite
Zbierane dane
- Suma linków zewnętrznych i wewnętrznych na stronie
- Sprawdza obecność linku na wskazanej stronie:
0i10- oznacza brak dokładnego dopasowania linku zwrotnego1- oznacza istnienie dokładnego dopasowania linku zwrotnego
- Blokowanie wskazanej strony przed przeglądaniem przez robots.txt -
0i1 - Blokowanie indeksowania strony przez metatag robots z atrybutem
noindex, a także blokowanie podążania za linkiem przez atrybutnofollow - Blokowanie podążania za linkiem przez atrybut
rel=nofollow
Dodatkowe dane, które można uzyskać:
- Liczba linków zewnętrznych i wewnętrznych na stronie
- Lista wszystkich linków zewnętrznych i wewnętrznych na stronie
Możliwości
- Sprawdza obecność linku na wskazanej stronie, z możliwością wyszukiwania linku bez podawania schematu (protokołu) poprzez dopasowanie ciągu znaków
- Sprawdza, czy strona jest zablokowana przed indeksowaniem przez robots.txt
- Sprawdza metatag robots pod kątem atrybutów
noindexinofollow - Sprawdza obecność
rel=nofollowprzy znalezionym linku - Wyszukiwanie linku po wystąpieniu ciągu znaków
- Możliwość wskazania własnego nagłówka User-Agent
Warianty użycia
- Sprawdzanie rozmieszczenia własnych linków na wskazanych stronach
- Wyszukiwanie linków wyświetlanych tylko dla określonego User-Agent (na przykład dla bota Google)
Zapytania
Jako zapytania należy podawać stronę, na której ma być szukany link, a po spacji szukany link:
https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/
Podstawienia w zapytaniach
Możesz używać wbudowanych makr do automatycznego podstawiania podzapytań z plików. Na przykład, jeśli chcemy sprawdzić witryny na podstawie bazy stron, podajemy listę stron, na których szukamy linków:
https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/
W formacie zapytań wskazujemy makro podstawiania dodatkowych zapytań z pliku backlinks.txt. Ta metoda pozwala sprawdzać bazę witryn pod kątem listy linków z pliku:
$query {subs:backlinks}
To makro utworzy tyle dodatkowych zapytań, ile znajduje się w pliku dla każdego wyjściowego zapytania, co w sumie da [liczba zapytań wyjściowych (linki do stron)] x [liczba zapytań w pliku backlinks] = [całkowita liczba zapytań] w wyniku działania makra.
Można również wskazać protokół w formacie zapytań, aby jako zapytania móc stosować same domeny:
http://$query
Taki format doda http:// do każdego zapytania.
Warianty wyprowadzania wyników
A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala na wyprowadzanie wyników w dowolnej formie, a także w strukturze takiej jak CSV lub JSON.
Domyślne wyprowadzanie
Format wyniku:
$backlink - $checklink: $exists, blocked by robots.txt: $robots\n
Przykład wyniku, w którym wyświetlony jest link zwrotny, link do strony przeszukiwanej, obecność lub brak linku zwrotnego oraz sprawdzenie blokady strony w pliku robots.txt:
http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0
Wyprowadzanie obecności linków zwrotnych i dodatkowych parametrów do analizy do tabeli CSV
Wbudowane narzędzie $tools.CSVLine pozwala tworzyć poprawne dokumenty tabelaryczne, gotowe do importu do Excela lub Arkuszy Google.
Wynik zmiennej $actualchecklink pojawia się tylko wtedy, gdy na stronie znajduje się link zwrotny; jeśli go nie ma, wynik tej zmiennej to none. $actualbacklink i $actualchecklink to rzeczywiste linki po przekierowaniu.
Format wyniku:
[% tools.CSVline(backlink, checklink, anchor, nofollow, noindex, redirect, exists, robots, actualbacklink, actualchecklink, intcount, extcount) %]
Nazwa pliku:
$datefile.format().csv
Tekst początkowy:
Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count
Przykład wyniku:
https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Pobierz przykład
Jak zaimportować przykład do A-Parser
eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=
W formacie wyników stosowany jest silnik szablonów Template Toolkit.
W nazwie pliku wyników wystarczy zmienić rozszerzenie pliku na csv.
Aby opcja "Prepend text" była dostępna w Edytorze zadań, należy aktywować "More options". W "Prepend text" wpisujemy nazwy kolumn oddzielone przecinkami, a drugą linię pozostawiamy pustą.
Zrzut linków zewnętrznych ze strony linku zwrotnego do JSON
Format wyniku:
[% data = {};
data.query = query; data.links = [];
FOREACH item IN extlinks;
data.links.push(item.link);
END;
IF !firstString;
",\n";
ELSE;
firstString = 0;
END;
data.json %]
Tekst początkowy:
[% firstString = 1 %][
Tekst końcowy:
]
Przykład wyniku:
[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]
Przetwarzanie wyników
A-Parser pozwala przetwarzać wyniki bezpośrednio podczas scrapowania. W tej sekcji przedstawiliśmy najpopularniejsze przypadki dla scrapera Check::BackLink.
Zapisywanie domen linków zewnętrznych przy obecności linków zwrotnych
Dodaj filtr i z listy rozwijanej wybierz zmienną statusu $exists - Link exists. Wybierz typ: String equal. Następnie w polu String (Ciąg znaków) wpisz wartość odpowiadającą obecności linku zwrotnego: 1. Dzięki takiemu filtrowi będziesz mógł wyprowadzić wszystkie wyniki z obecnym linkiem zwrotnym.
Dodaj Result Builders (Konstruktor wyników) i z listy rozwijanej wybierz źródło: $p1.extlinks.$i.link - Link. Wybierz typ: Extract Top Domain. W ten sposób otrzymasz domeny z linków zewnętrznych.

Pobierz przykład
Jak zaimportować przykład do A-Parser
eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=
Konstruktor wyników można dodać tyle razy, ile jest potrzebne.
Zobacz również:
Możliwe ustawienia
Obsługuje wszystkie ustawienia scrapera
HTML::LinkExtractor, a także dodatkowo:
| Nazwa parametru | Wartość domyślna | Opis |
|---|---|---|
| Check robots.txt | ☑ | Określa, czy sprawdzać zakaz indeksowania strony przez robots.txt |
| Match link by substring | ☐ | Określa, czy wyszukiwać link po wystąpieniu ciągu znaków. Można sprawdzać linki bez podawania schematu, np. po domenie bez wskazania protokołu http |