Inställningar
A-Parser innehåller följande inställningsgrupper:
- Global Settings - programmets huvudinställningar: språk, lösenord, uppdateringsparametrar, antal aktiva uppgifter
- Config Presets - inställningar för trådar och metoder för dubblettkontroll för uppgifter
- Parser Presets - möjlighet att konfigurera varje enskild scraper
- Inställningar för proxykontroll - antal trådar och alla inställningar för proxycheckern
- Advanced Settings - valfria inställningar för avancerade användare
- Task presets - sparande av uppgifter för framtida användning
Alla inställningar (utom allmänna och ytterligare) sparas i så kallade förinställningar - uppsättningar av försparade inställningar, till exempel:
- Olika inställningsmallar för scrapern
SE::Google - en för dataskrapning av länkar med ett maximalt djup på 10 sidor, en annan för att utvärdera konkurrens för en sökfråga, med ett djup på 1 sida - Olika förinställningar för proxycheckerns inställningar - separata för HTTP- och SOCKS-proxyer
För alla inställningar finns en standardförinställning (default), den kan inte ändras, alla ändringar måste sparas i förinställningar med nya namn.
Allmänna inställningar

| Namn på parameter | Standardvärde | Beskrivning |
|---|---|---|
| Password | Inget lösenord | Ange ett lösenord för att logga in i A-Parser |
| Language | English | Gränssnittsspråk |
| News & Tips | English | Språk för nyheter och tips |
| Enable tips | ☑ | Avgör om tips ska visas |
| Check updates | ☑ | Avgör om information om tillgänglighet för en ny version ska visas i Statusfältet |
| Save window size | ☐ | Avgör om fönsterstorleken ska sparas |
| Updates channel | Stable | Val av uppdateringskanal (Stabil, Beta, Alfa) |
| Tasks per page | 5 | Antal uppgifter per sida i Uppgiftskön |
| Max active tasks | 1 | Maximalt antal aktiva uppgifter |
| Total threads limit | 10000 | Total trådgräns i A-Parser. En uppgift startar inte om den totala trådgränsen är mindre än antalet trådar i uppgiften |
| Dynamic thread limit | ☐ | Avgör om Dynamisk trådgräns ska användas |
| CPU cores (task processing) | 2 | Stöd för hantering av uppgifter på olika processorkärnor (endast för Enterprise-licens). Beskrivs mer detaljerat nedan |
| CPU cores (result processing) | 4 | Flera kärnor används endast vid filtrering, Resultatkonstruktör, Parse custom result (alla licenstyper) |
| Memory Saver | Best speed | Gör det möjligt att bestämma hur mycket minne scrapern kan använda (Best speed / Medium memory usage / Save max memory). Läs mer... |
CPU-kärnor (uppgiftshantering)
Stöd för hantering av uppgifter på olika processorkärnor, denna funktion är tillgänglig endast för Enterprise-licens
Detta alternativ påskyndar (mångfaldigt) hanteringen av flera uppgifter i kön (Settings -> Max active tasks), men påskyndar inte utförandet av en enskild uppgift
Det finns även en intelligent fördelning av uppgifter på arbetskärnor baserat på CPU-belastningen för varje process Antalet processorkärnor som används anges i inställningarna, standard är 2, maximalt 32
Precis som med trådar är det bäst att välja antalet kärnor experimentellt; rimliga värden är 2-3 kärnor för 4-kärniga processorer, 4-6 för 8-kärniga osv. Det är värt att notera att vid ett stort antal kärnor och hög belastning kan 100% belastning uppstå i den huvudsakliga hanteringsprocessen (aparser/aparser.exe), vilket gör att ytterligare ökning av processer för uppgiftshantering endast orsakar en allmän avmattning eller instabil drift. Det bör också beaktas att varje process för uppgiftshantering kan skapa en extra belastning på upp till 300% (dvs. belasta 3 kärnor samtidigt till 100%), denna egenskap är relaterad till flertrådad skräpinsamling i JavaScript-motorn v8
Inställningar för trådar
Arbetet i A-Parser bygger på principen om flertrådad databehandling. Scrapern utför uppgifter parallellt i separata trådar, vars antal kan varieras flexibelt beroende på serverkonfigurationen.
Beskrivning av hur trådar fungerar
Låt oss titta på vad trådar innebär i praktiken. Anta att du behöver sammanställa en rapport för tre månader.
Alternativ 1
Du kan sammanställa rapporten först för månad 1, sedan för månad 2 och därefter för månad 3. Detta är ett exempel på enkeltrådat arbete. Uppgifterna löses i turordning.
Alternativ 2
Anställa tre revisorer som sammanställer rapporterna för varsin månad. När resultaten från alla tre är klara görs en sammanställning. Detta är ett exempel på flertrådat arbete. Uppgifterna löses samtidigt.
Som framgår av dessa exempel gör flertrådat arbete att uppgiften kan slutföras snabbare, men det kräver samtidigt mer resurser (vi behöver 3 revisorer istället för 1). Flertrådning fungerar på samma sätt i A-Parser. Anta att du behöver skrapa information från flera länkar:
- med en tråd kommer applikationen att skrapa varje webbplats i turordning
- vid arbete med flera trådar kommer varje tråd att bearbeta sin egen länk, och när den är klar gå vidare till nästa obearbetade länk i listan
Därför kommer hela uppgiften i det andra alternativet att slutföras betydligt snabbare, men det kräver mer serverresurser, så det rekommenderas att följa Systemkrav
Inställning av trådar
Trådinställningarna i A-Parser görs separat för varje uppgift, beroende på vilka parametrar som krävs för att den ska kunna köras. Som standard finns 2 trådkonfigurationer tillgängliga: för 20 och 100 trådar, för default respektive 100 Threads.
För att komma till inställningarna för den valda konfigurationen klickar du på pennikonen , varpå dess inställningar öppnas.

Du kan också gå till trådinställningarna via menyn: Settings -> Config Presets
Här kan vi:
- skapa en ny konfiguration med egna inställningar och spara den under ett eget namn (knappen Lägg till ny)
- göra ändringar i en befintlig konfiguration genom att välja den i rullgardinsmenyn (knappen Spara)

Antal trådar (Threads count)
Denna parameter anger antalet trådar som en uppgift som körs med denna konfiguration kommer att använda. Antalet trådar kan vara valfritt, men du måste ta hänsyn till din servers kapacitet samt eventuella begränsningar i ditt proxyabonnemang. Till exempel kan du för våra proxyer inte ange mer än vad abonnemanget tillåter.
Det är också viktigt att komma ihåg att det totala antalet trådar i scrapern är summan av alla körande uppgifter och aktiva proxycheckers med proxykontroll. Om till exempel en uppgift körs med 20 trådar och två uppgifter med 100 trådar vardera, samt en proxychecker med proxykontroll i 15 trådar, kommer A-Parser totalt att använda 20+100+100+15=235 trådar. Om proxyabonnemanget är begränsat till 200 trådar kommer det att uppstå många misslyckade anrop. För att undvika detta måste antalet trådar sänkas. Till exempel genom att stänga av proxykontrollen (om den inte behövs sparar det 15 trådar) och sänka antalet trådar i någon av uppgifterna med ytterligare 20 trådar. På så sätt bör du skapa en konfiguration på 80 trådar för en av de körande uppgifterna och låta de andra vara som de är
Proxycheckers (Proxy Checkers)
Denna parameter gör det möjligt att välja en proxychecker med specifika inställningar. Här kan du välja parametern All, vilket innebär att alla aktiva proxycheckers används, eller bara de som ska användas i uppgiften (det går att välja flera alternativ)
Denna inställning gör det möjligt att köra uppgiften endast med de önskade proxycheckerna. Processen för att ställa in en proxychecker beskrivs här
Max trådar per proxy (Max threads per proxy)
Här anges det maximala antalet trådar som samtidigt kan använda samma proxy. Det gör det möjligt att ställa in olika parametrar, till exempel 1 tråd = 1 proxy.
Som standard är denna parameter 0, vilket inaktiverar funktionen. I de flesta fall är detta tillräckligt. Men om du behöver begränsa belastningen på varje proxy är det vettigt att ändra värdet
Global proxy-ban (Global proxy ban)
Alla uppgifter som körs med detta alternativ delar en gemensam databas för proxy-bannlysning. Det speciella med denna parameter är att listan över bannlysta proxyer för varje scraper är gemensam för alla körande uppgifter.
Till exempel kommer en proxy som bannlysts i
SE::Google i uppgift 1 även att vara bannlyst för
SE::Google i uppgift 2, men den kan fortfarande fungera obehindrat i
SE::Yandex i båda uppgifterna
Max anslutningar per värd (Max connections per host)
Denna parameter anger det maximala antalet anslutningar per värd och är avsedd att minska belastningen på en webbplats vid dataskrapning. I praktiken gör denna parameter det möjligt att kontrollera antalet samtidiga anrop till varje specifik domän. Aktivering av denna parameter gäller för uppgiften; om flera uppgifter körs samtidigt med samma trådkonfiguration kommer gränsen att räknas för alla uppgifter.
Som standard har denna parameter värdet 0, det vill säga den är inaktiverad.
Återanvänd proxy mellan försök (Reuse proxy between retries)
Denna inställning inaktiverar kontrollen av proxy-unikhet för varje försök, och proxy-bannlysning kommer inte heller att fungera. Detta innebär i sin tur att det är möjligt att använda 1 proxy för alla försök.
Denna parameter rekommenderas att aktiveras till exempel i de fall då man planerar att använda 1 proxy där utgångs-IP ändras vid varje anslutning.
Proxystrategi (Proxy strategy)
Gör det möjligt att styra strategin för val av proxy vid användning av sessioner: behåll proxyn från ett lyckat anrop för nästa anrop eller använd alltid en slumpmässig proxy.
Rekommendationer
I denna artikel har vi gått igenom alla inställningar som gör det möjligt att styra trådar. Det bör noteras att man vid konfiguration av trådar inte behöver ange alla parametrar som nämns i artikeln; det räcker att ange de som säkerställer ett korrekt resultat. Vanligtvis behöver man bara ändra Threads count, medan övriga inställningar kan lämnas som standard.
Inställningar för scrapers
Varje scraper har många inställningar och gör det möjligt att spara olika uppsättningar inställningar i mallar. Systemet med mallar gör det möjligt att använda samma scraper med olika inställningar beroende på situationen, låt oss titta på ett exempel med scrapern
SE::Google:
Mall 1: "Dataskrapning av maximalt antal länkar"
- Antal sidor (Pages count):
10
På så sätt kommer scrapern att samla in det maximala antalet länkar genom att gå igenom alla sidor i sökresultatet
Mall 2: "Dataskrapning av konkurrens per sökfråga"
- Antal sidor (Pages count):
1 - Resultatformat (Results format):
$query: $totalcount\n
I detta fall får vi antalet resultat i sökningen för sökfrågan (frågans konkurrens) och för högre hastighet räcker det att vi skrapar endast den första sidan
Skapa mallar

Skapandet av en mall börjar med att välja scraper/scrapers och definiera vilket resultat som ska erhållas.
Därefter behöver man förstå vilken indata som krävs för den valda scrapern. På skärmbilden ovan är scrapern
SE::Google vald, och dess indata är valfria strängar precis som om du sökte efter något i en webbläsare. Du kan välja en fil med sökfrågor eller skriva in frågorna i ett textfält.
Nu behöver du åsidosätta inställningarna (välja alternativ) för scrapern, lägga till dubblettkontroll. Du kan använda frågebyggaren om sökfrågorna behöver bearbetas, eller använda resultatbyggaren om resultaten behöver bearbetas på något sätt.
Därefter bör du vara uppmärksam på redigering av filnamnet för resultaten och ändra det efter eget önskemål om det behövs.
Den sista punkten är att välja ytterligare alternativ, särskilt alternativet Do log (Logga). Detta är mycket användbart om du vill ta reda på orsaken till ett fel vid dataskrapning.
Efter allt detta behöver du spara mallen och lägga till den i uppgiftskön.
Åsidosätta inställningar
Override preset - snabbt åsidosättande av inställningar för en scraper. Detta alternativ kan läggas till direkt i Uppgiftsredigeraren. Med ett klick kan du lägga till flera parametrar. I listan över inställningar visas standardvärden, och om ett alternativ är markerat med fetstil betyder det att det redan har åsidosatts i mallen

I det här exemplet har alternativet Pages count (Antal sidor) åsidosatts och satts till 5.
I en uppgift kan du använda ett obegränsat antal Override preset-alternativ, men om det är många ändringar är det smidigare att skapa en ny mall och spara alla ändringar i den.
Du kan också enkelt spara åsidosättningar med funktionen Save overrides to preset (Spara åsidosättningar). De kommer att sparas som en separat mall för den valda scrapern.

Därefter räcker det i framtiden att helt enkelt välja denna sparade mall från listan och använda den.

Allmänna inställningar för alla scrapers
Varje scraper har sin egen uppsättning inställningar. Information om inställningarna för varje scraper hittar du i motsvarande avsnitt
I denna tabell har vi presenterat allmänna inställningar för alla scrapers
| Namn på parameter | Standardvärde | Beskrivning |
|---|---|---|
| Request retries | 10 | Antal försök för varje förfrågan; om en förfrågan inte kan utföras inom det angivna antalet försök anses den vara misslyckad och hoppas över |
| Use proxy | ☑ | Avgör om proxy ska användas |
| Query format | $query | Frågeformat |
| Result format | Varje scraper har sitt eget värde | Format för resultatmatautmatning |
| Proxy ban time | Varje scraper har sitt eget värde | Tid för proxy-bannlysning i sekunder |
| Request timeout | 60 | Maximal väntetid för förfrågan i sekunder |
| Request delay | 0 | Fördröjning mellan förfrågningar i sekunder, ett slumpmässigt värde kan anges i ett intervall, till exempel 10,30 - fördröjning från 10 till 30 sekunder |
| Proxy Checker | All | Proxyer från vilka checkers som ska användas (val mellan alla eller uppräkning av specifika) |
Allmänt för alla scrapers som arbetar via HTTP-protokollet
| Namn på parameter | Standardvärde | Beskrivning |
|---|---|---|
| Max body size | Varje scraper har sitt eget värde | Maximal storlek på resultatsidan i byte |
| Use gzip | ☑ | Avgör om komprimering av överförd trafik ska användas |
| Extra query string | Gör det möjligt att ange ytterligare parametrar i frågesträngen |
Standardinställningarna för varje scraper kan variera. De lagras i mallen default i inställningarna för varje scraper.
Inställningar för proxycheckers
Läs mer om Inställning av proxycheckers
Ytterligare inställningar

- Radbrytning gör det möjligt att välja mellan Unix- och Windows-varianten av radslut när resultat sparas till fil
- Nummerformat - anger hur tal ska visas i gränssnittet för A-Parser
- Mallmakron