Улучшение [1.1.336] Как собрать статистику по результатам парсинга?

  • Автор темы Автор темы sim0n
  • Дата начала Дата начала

sim0n

A-Parser Enterprise License
A-Parser Enterprise
Здравствуйте, подскажите как решить задачу.
Есть список ключей(10к)
нужно по этим ключам собрать всю выдачу гугла,а потом создать статистику по найденным данным
в таком формате

по сабдоменам
Посчитать сколько сабдоменов есть в результатах парсинга всех ключей
например *.wordpress.com- 1548 домнов
и так для каждого домена в списке

по доменам
посчитать сколько ссылок мы собрали для каждого домена
например https://otvet.mail.ru/* - 2389 ссылок и так для каждого домена
 
Перемещено в раздел Задачи. Существующими средствами подобное сделать не получится.
 
Теперь у начального текста, формата результата и конечного текста общее пространство переменных, что позволяет решить указанную задачу

jcxow.png
 
Ниже показано решение задачи из 1-го поста. За основу взят этот пример, но с добавлением подсчета статистики по сабдоменам. Поэтому данный пресет будет работать начиная с версии 1.1.336.
ZejHD.png

Код:
eyJwcmVzZXQiOiJwb3N0IDE4NjgiLCJ2YWx1ZSI6eyJwcmVzZXQiOiJwb3N0IDE4
NjgiLCJwYXJzZXJzIjpbWyJTRTo6R29vZ2xlIiwiZGVmYXVsdCJdXSwicmVzdWx0
c0Zvcm1hdCI6IiRwMS5wcmVzZXRcblslLSBGT1JFQUNIIHAxLnNlcnA7XG5cdHRv
cERvbWFpbiA9IGxpbmsubWF0Y2goJ1xcL1xcLyg/Ond3dyk/Lio/KFtcXHctXStc
XC5bXFx3LV0rKSg/OlxcL3wkKScpLjA7XG5cdHN1YiA9IGxpbmsubWF0Y2goJyg/
Omh0fGYpdHBzPzpcXC9cXC8oW1xcd1xcZC0uXSsnIF8gdG9wRG9tYWluIF8gJyko
PzpcXC98JCknLCAxKS4wLnJlbW92ZSgnXnd3d1xcLicpO1xuXHRJRiBzdWIgJiYg
c3ViICE9IHRvcERvbWFpbjtcblx0XHRzdGF0VG9wRG9tYWluLiR0b3BEb21haW4u
JHN1YiA9IHN0YXRUb3BEb21haW4uJHRvcERvbWFpbi4kc3ViICsgMTtcblx0RU5E
O1xuXHRkb21haW4gPSBsaW5rLm1hdGNoKCcoKD86aHR8Zil0cHM/OlxcL1xcLy4r
PykoPzpcXC98JCknLCAxKS4wO1xuXHRzdGF0RG9tYWluLiRkb21haW4gPSBzdGF0
RG9tYWluLiRkb21haW4gKyAxO1xuRU5EO1xuSUYgcDEuaW5mby5zdWNjZXNzID09
IDA7XG5cdGZhaWxlZC5wdXNoKHF1ZXJ5KTtcbkVORCAlXSIsInJlc3VsdHNTYXZl
VG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgp
LnR4dCIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5v
IiwicXVlcnlGb3JtYXQiOlsiJHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNl
LCJzYXZlRmFpbGVkUXVlcmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJv
bkFsbExldmVscyI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpm
YWxzZSwicXVlcnlCdWlsZGVyc09uQWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNP
cHRpb25zIjp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVu
aXF1ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOnRydWUsInJlc3VsdHNQcmVwZW5kIjoi
WyUgc3RhdERvbWFpbiA9IHt9O1xuc3RhdFRvcERvbWFpbiA9IHt9O1xuZmFpbGVk
ID0gW10gJV0iLCJyZXN1bHRzQXBwZW5kIjoiXFxuKioqKipcdTA0MjFcdTA0NDJc
dTA0MzBcdTA0NDJcdTA0MzhcdTA0NDFcdTA0NDJcdTA0MzhcdTA0M2FcdTA0MzAg
XHUwNDM3XHUwNDMwXHUwNDM0XHUwNDMwXHUwNDNkXHUwNDM4XHUwNDRmOlxuXHUw
NDFkXHUwNDM1XHUwNDQzXHUwNDM0XHUwNDMwXHUwNDQ3XHUwNDNkXHUwNDRiXHUw
NDQ1IFx1MDQzN1x1MDQzMFx1MDQzZlx1MDQ0MFx1MDQzZVx1MDQ0MVx1MDQzZVx1
MDQzMjogJGZhaWxlZC5zaXplXG5bJSBJRiBmYWlsZWQuc2l6ZSA+IDA7XG5cdGZh
aWxlZC5qb2luKCcsICcpIF8gXCJcXG5cIjtcbkVORCAlXVxuXHUwNDFhXHUwNDNl
XHUwNDNiLVx1MDQzMlx1MDQzZSBcdTA0NDFcdTA0NDFcdTA0NGJcdTA0M2JcdTA0
M2VcdTA0M2EgXHUwNDNmXHUwNDNlIFx1MDQzYVx1MDQzMFx1MDQzNlx1MDQzNFx1
MDQzZVx1MDQzY1x1MDQ0MyBcdTA0MzRcdTA0M2VcdTA0M2NcdTA0MzVcdTA0M2Rc
dTA0NDM6XG5bJSBGT1JFQUNIIGtleSBJTiBzdGF0RG9tYWluLm5zb3J0LnJldmVy
c2U7XG5cdGtleSBfICc6ICcgXyBzdGF0RG9tYWluLiRrZXkgXyBcIlxcblwiO1xu
RU5EICVdXG5cdTA0MWFcdTA0M2VcdTA0M2ItXHUwNDMyXHUwNDNlIFx1MDQ0MVx1
MDQzMFx1MDQzMVx1MDQzNFx1MDQzZVx1MDQzY1x1MDQzNVx1MDQzZFx1MDQzZVx1
MDQzMjpcblslIHN0YXRTb3J0ID0ge307XG5GT1JFQUNIIGtleSBJTiBzdGF0VG9w
RG9tYWluLmtleXM7XG5cdHN0YXRTb3J0LiRrZXkgPSBzdGF0VG9wRG9tYWluLiRr
ZXkuc2l6ZTtcbkVORDtcbkZPUkVBQ0gga2V5IElOIHN0YXRTb3J0Lm5zb3J0LnJl
dmVyc2U7XG5cdElGIHN0YXRTb3J0LiRrZXk7XG4gICAgXHRzdWJTb3J0ID0ge307
XG4gICAgICAgIEZPUkVBQ0ggayBJTiBzdGF0VG9wRG9tYWluLiRrZXkua2V5cztc
biAgICAgICAgXHRzdWJTb3J0LiRrID0gc3RhdFRvcERvbWFpbi4ka2V5LiRrO1xu
ICAgICAgICBFTkQ7XG4gICAgICAgICAgICBrZXkgXyAnOiAnIF8gc3RhdFNvcnQu
JGtleSBfIFwiIFtcIjtcbiAgICAgICAgRk9SRUFDSCBrIElOIHN1YlNvcnQubnNv
cnQucmV2ZXJzZTtcbiAgICAgICAgXHRJRiBsb29wLmNvdW50ICE9IHN1YlNvcnQu
c2l6ZTtcbiAgICAgICAgICAgIFx0ayBfICcgKCcgXyBzdWJTb3J0LiRrIF8gJyks
ICc7XG4gICAgICAgICAgICBFTFNFO1xuICAgICAgICAgICAgXHRrIF8gJyAoJyBf
IHN1YlNvcnQuJGsgXyAnKSc7XG4gICAgICAgICAgICBFTkQ7XG4gICAgICAgIEVO
RDtcbiAgICAgICAgXCJdXFxuXCI7XG4gICAgRU5EO1xuRU5EICVdIiwicXVlcnlC
dWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRl
cyI6W119fQ==
Шаблон подсчета статистики:
TDY1f.png

Шаблон сортировки и вывода статистики:
kvPaP.png

В данном примере в статистику выводятся:
  • кол-во неудачных запросов
  • список неудачных запросов (если их кол-во >0)
  • список доменов
  • количество ссылок на каждом домене
  • список доменов, имеющих сабдомены
  • кол-во сабдоменов для каждого домена
  • список сабдоменов для каждого домена
  • частота в выдаче каждого сабдомена
При этом данные сортируются по убыванию.

Пример статистики:

*****Статистика задания:
Неудачных запросов: 81
a-parser ca, a-parser cf, a-parser bv, a-parser aw, a-parser go, a-parser at, a-parser cu, a-parser dp, a-parser fs, a-parser dk, a-parser x, a-parser bb, a-parser gq, a-parser bz, a-parser dx, a-parser ct, a-parser ge, a-parser s, a-parser eu, a-parser gl, a-parser fd, a-parser dg, a-parser cy, a-parser aj, a-parser dl, a-parser ea, a-parser ce, a-parser bq, a-parser ez, a-parser eg, a-parser em, a-parser cv, a-parser hq, a-parser ba, a-parser fz, a-parser t, a-parser gm, a-parser gk, a-parser dq, a-parser lq, a-parser r, a-parser er, a-parser hv, a-parser hd, a-parser gc, a-parser ii, a-parser ah, a-parser mm, a-parser ec, a-parser hz, a-parser mu, a-parser bp, a-parser eq, a-parser je, a-parser c, a-parser ho, a-parser mn, a-parser bt, a-parser ni, a-parser au, a-parser ae, a-parser nf, a-parser co, a-parser jt, a-parser kg, a-parser qs, a-parser cx, a-parser id, a-parser ih, a-parser ov, a-parser ko, a-parser pu, a-parser mq, a-parser jp, a-parser gp, a-parser hr, a-parser ay, a-parser kl, a-parser jy, a-parser lz, a-parser up

Кол-во ссылок по каждому домену:
https://books.google.com: 6268
https://github.com: 773
http://stackoverflow.com: 729
http://link.springer.com: 583
https://en.wikipedia.org: 580
http://dl.acm.org: 578
http://www.sciencedirect.com: 551
https://searchcode.com: 543
http://arxiv.org: 526
http://citeseerx.ist.psu.edu: 524
https://www.npmjs.com: 512
http://www.scriptscoop.com: 505
...

Кол-во сабдоменов:
...
leagueoflegends.com: 4 [na.leagueoflegends.com (4), euw.leagueoflegends.com (3), boards.na.leagueoflegends.com (2), forums.na.leagueoflegends.com (1)]
microfocus.com: 4 [documentation.microfocus.com (11), community.microfocus.com (10), supportline.microfocus.com (1), wiki.microfocus.com (1)]
res.in: 4 [imsc.res.in (6), tcs.tifr.res.in (5), tifr.res.in (1), univ.tifr.res.in (1)]
pivotal.io: 4 [blog.pivotal.io (7), support.pivotal.io (3), gemfirexd.docs.pivotal.io (1), tcserver.docs.pivotal.io (1)]
derkeiler.com: 4 [coding.derkeiler.com (62), newsgroups.derkeiler.com (23), unix.derkeiler.com (14), linux.derkeiler.com (12)]
yandex.ru: 4 [ftp.yandex.ru (2), mirror.yandex.ru (1), ege.yandex.ru (1), music.yandex.ru (1)]
cyanogenmod.org: 3 [forum.cyanogenmod.org (5), review.cyanogenmod.org (5), wiki.cyanogenmod.org (1)]
jinr.ru: 3 [linux4u.jinr.ru (5), l4u-00.jinr.ru (1), nec2009.jinr.ru (1)]
...
 
удаляет дубли? Сравнивал две чеклаки на ТИЦ. Очень разные результаты. У этого парсера на выходе очень мало ссылок
 
Назад
Верх