Hoppa till huvudinnehåll

Resultatens dubblettkontroll

Dubblettkontroll, deduplicering, borttagning av dubbletter, borttagning av upprepningar - allt detta innebär att vi inte vill ha upprepade resultat. I A-Parser finns det 2 metoder för dubblettkontroll, låt oss gå igenom varje i detalj.

Resultatens dubblettkontroll per rad

Denna metod fungerar efter formatering av resultatet, precis innan resultatet skrivs till filen kontrolleras varje rad för unikhet och endast nya unika rader skrivs till filen.

Du kan aktivera unikhet per rad i Snabbinställningar:

Alternativet för resultatens dubblettkontroll per rad i Snabbinställningar

Eller i Task Editor:

Alternativet Dubblettkontroll per rad i Task Editor

Dubblettkontroll efter valfritt resultat

Dubblettkontroll efter valfritt resultat gör det möjligt att utföra dubblettkontroll direkt på det valda resultatet från en specifik scraper. Du kan lägga till denna typ av dubblettkontroll i Task Editor genom att klicka på verktygsikonen till höger om scrapern och välja Add unique result (Lägg till dubblettkontroll):

Alternativet Lägg till dubblettkontroll i Task Editor

Nu kan du välja vilket resultat dubblettkontrollen ska utföras på och typ av dubblettkontroll:

Typ av dubblettkontroll i Task Editor
anteckning

Växeln Global (Globalt) används när 2 eller fler scrapers är valda; den avgör om en gemensam dubblettkontroll ska utföras eller separat för varje scraper.

Typer av dubblettkontroll

ParameterBeskrivning
StringDubblettkontroll per rad (hela resultatraden jämförs)
DomainDubblettkontroll per domän (hela domänen jämförs, till exempel är www.domain.com och domain.com olika domäner)
Top Level domainDubblettkontroll per huvuddomän med hänsyn till regionala, kommersiella, utbildnings- och andra domäner (till exempel är domain.co.uk och domain2.co.uk olika domäner, medan sub1.domain.com och sub2.domain.com är samma)
AndranivådomänDubblettkontroll per andranivådomän (andranivådomäner jämförs, till exempel är www.domain.com, domain.com och user.subdomain.domain.com alla samma domän)
PathDubblettkontroll per sökväg (delar av länken fram till filen jämförs, till exempel är http://domain.com/path1/file.php och http://domain.com/path1/file2.php samma delar av länken fram till filen)
Without paramsDubblettkontroll per länk utan parametrar (länkar utan parametrar jämförs, till exempel är http://domain.com/file.php?page=1 och http://domain.com/file.php?page=2 samma länkar)

Frågedubblettkontroll

Frågedubblettkontroll skickar endast unika frågor till dataskrapning som inte tidigare har skrapats i den aktuella uppgiften. Huvudsakliga användningsområden:

  • Om det finns dubbletter i ursprungsfrågorna och det är oönskat att skrapa dem (dubbelt arbete)
  • Vid användning av alternativet Parse to level (Dataskrapa till nivå) är det nödvändigt att endast använda unika frågor för att förhindra att frågorna expanderar okontrollerat eller hamnar i loopar (till exempel vid användning av scrapern HTML::LinkExtractorHTML::LinkExtractor)
anteckning

I alla andra fall kommer onödig användning av frågedubblettkontroll endast att sakta ner scraperns totala arbete

Spara dubblettkontrollstatus mellan uppgifter

Det finns möjlighet att spara databasen för dubblettkontroll för användning i framtida uppgifter, vilket gör det möjligt att i nya uppgifter endast spara nya unika resultat (till exempel länkar vid dataskrapning av SERP i SE::GoogleSE::Google)

För att spara dubblettkontrollsdatabasen måste du skapa ett nytt databasnamn när du lägger till den första uppgiften:

Spara dubblettkontrollsdatabasen i Task Editor

För alla efterföljande uppgifter måste du välja det tidigare skapade databasnamnet, vilket gör att endast nya unika resultat sparas, oavsett om resultaten skrivs till samma fil som i den första uppgiften eller till en ny fil.