Ga naar de hoofdinhoud

Lijst met termen

Scraper

Een scraper is een script dat gegevens verzamelt van gespecificeerde webbronnen op basis van opgegeven query's, deze verwerkt en het resultaat uitvoert in een standaard of gespecificeerd formaat.

Ingebouwde scrapers

Ingebouwde scrapers zijn vooraf geïnstalleerde scrapers die direct beschikbaar zijn en waarvan de werking continu wordt ondersteund.

Maatwerk JS-scrapers

Maatwerk JS-scrapers zijn scrapers met open broncode, geschreven in JavaScript en beschikbaar in de JS Scraper Editor, die samen met een taak kunnen worden geëxporteerd en geïmporteerd. Voorbeelden van dergelijke scrapers zijn te vinden in de Catalogus van scrapers en presets.

Preset

Een preset is zowel een opgeslagen taak, die wordt aangemaakt in de Task Editor door een combinatie van scrapers, instellingen en opties te selecteren voor het uitvoeren van een taak, als de instellingen van een individuele scraper (instellingen-preset).

Scraperinstellingen

Scraperinstellingen zijn opties die kunnen worden bewerkt of gewijzigd (overschreven) voor een ander algoritme van de scraper om een niet-standaard resultaat te verkrijgen.

Opgeslagen taak

Een opgeslagen taak is een preset die is opgeslagen en opnieuw kan worden gebruikt.

Thread-configuratie

Een thread-configuratie is een verzameling thread-instellingen die onder een naam kan worden opgeslagen en opnieuw kan worden gebruikt met verschillende presets.

Threads

Threads zijn een verzameling gelijktijdig gestarte contexten voor gegevensextractie, waarin de scraper parallel query's uitvoert, proxy's doorloopt volgens een bepaalde strategie die is vastgelegd in de Thread-configuratie, en het proces van de gegevensextractie voor elke query logt.

Proxychecker

Een proxychecker is een controller die verantwoordelijk is voor het laden en controleren van proxy's met behulp van een verzameling proxychecker-instellingen.

Proxy

Een proxy is een regel/array van regels in een bepaald formaat (of een link naar een regel/array van regels), waarmee het echte IP-adres kan worden verborgen door query's te verzenden tijdens de gegevensextractie en datapakketten van de server naar de client over te dragen via een tussenliggende proxyserver.

Resultaatsjabloon

Een resultaatsjabloon is een sjabloon dat het formaat en de verzamelde gegevens van het resultaat bepaalt, direct ingesteld of met behulp van de ingebouwde template engine Template Toolkit.