Przejdź do treści głównej

Usuwanie duplikatów wyników

Usuwanie duplikatów, deduplikacja, usuwanie powtórek - wszystko to oznacza, że nie potrzebujemy powtarzających się wyników. W A-Parser istnieją 2 metody usuwania duplikatów, omówmy szczegółowo każdą z nich.

Usuwanie duplikatów wyników według wiersza

Ta metoda działa po sformatowaniu wyniku, bezpośrednio przed zapisaniem wyniku do pliku każdy wiersz jest sprawdzany pod kątem unikalności i w pliku zapisywane są tylko nowe unikalne wiersze.

wskazówka

Włączyć unikalność według wiersza można w Szybkim zadaniu:

Opcja unikalność wyników według wiersza w Szybkim zadaniu

Lub w Edytorze zadań:

Opcja Usuwanie duplikatów według wiersza w Edytorze zadań

Usuwanie duplikatów według dowolnego wyniku

Usuwanie duplikatów według dowolnego wyniku pozwala na usuwanie duplikatów bezpośrednio na wybranym wyniku z konkretnego scrapera. Można dodać ten typ usuwania duplikatów w Edytorze zadań, klikając ikonę narzędzia po prawej stronie scrapera i wybierając Add unique result (Dodaj usuwanie duplikatów):

Opcja Dodaj usuwanie duplikatów w Edytorze zadań

Teraz można wybrać, na którym wyniku przeprowadzić usuwanie duplikatów oraz typ usuwania duplikatów:

Typ usuwania duplikatów w Edytorze zadań
notatka

Przełącznik Global (Globalnie) jest używany, gdy wybrano 2 lub więcej scrapery; określa on, czy stosować wspólne usuwanie duplikatów, czy oddzielnie dla każdego scrapera.

Typy usuwania duplikatów

ParametrOpis
StringUsuwanie duplikatów według wiersza (porównywany jest cały wiersz wyniku)
DomainUsuwanie duplikatów według domeny (porównywana jest cała domena, np. www.domain.com i domain.com to różne domeny)
Top Level domainUsuwanie duplikatów według głównej domeny z uwzględnieniem domen regionalnych, komercyjnych, edukacyjnych i innych (np. domain.co.uk i domain2.co.uk to różne domeny, a sub1.domain.com i sub2.domain.com - takie same)
Domena 2-go poziomuUsuwanie duplikatów według domeny drugiego poziomu (porównywane są domeny drugiego poziomu, np. www.domain.com, domain.com i user.subdomain.domain.com to ta sama domena)
PathUsuwanie duplikatów według ścieżki (porównywane są części linku do pliku, np. http://domain.com/path1/file.php i http://domain.com/path1/file2.php - takie same części linku do pliku)
Without paramsUsuwanie duplikatów według linku bez parametrów (porównywane są linki bez parametrów, np. http://domain.com/file.php?page=1 i http://domain.com/file.php?page=2 - takie same linki)

Usuwanie duplikatów zapytań

Usuwanie duplikatów zapytań wysyła bezpośrednio do scrapowania tylko unikalne zapytania, które nie zostały wcześniej przescrapowane w bieżącym zadaniu. Główne przypadki użycia:

  • Jeśli w zapytaniach źródłowych są duplikaty i niepożądane jest ich scrapowanie (podwójna praca)
  • Przy użyciu opcji Parse to level (Parsuj do poziomu) konieczne jest używanie wyłącznie unikalnych zapytań, aby zapobiec rozrastaniu się i zapętlaniu zapytań (na przykład przy użyciu scrapera HTML::LinkExtractorHTML::LinkExtractor)
notatka

We wszystkich innych przypadkach niepotrzebne użycie usuwania duplikatów zapytań jedynie spowolni ogólną pracę scrapera

Zapisywanie stanu usuwania duplikatów między zadaniami

Istnieje możliwość zapisywania bazy usuwania duplikatów do wykorzystania w przyszłych zadaniach, co pozwala w nowych zadaniach zapisywać tylko nowe unikalne wyniki (na przykład linki podczas scrapowania SERP w SE::GoogleSE::Google)

Aby zapisać bazę usuwania duplikatów, należy przy dodawaniu pierwszego zadania utworzyć nową nazwę bazy:

Typ usuwania duplikatów w Edytorze zadań

Dla wszystkich kolejnych zadań należy wybierać wcześniej utworzoną nazwę bazy, dzięki czemu zapisywane będą tylko nowe unikalne wyniki, niezależnie od tego, czy wyniki są zapisywane do tego samego pliku co w pierwszym zadaniu, czy do nowego pliku.