1. Подскажите, почему в выходных данных указанного пресета(скриншоты прилагаются) иногда не выдаются url и анкоры исходящих ссылок. Фильтр явно задает на выход выводить только те запросы и данные для них, которые в контенте содержат ссылки с определенными вхождениями. На вход подается списко url, все из этих url точно ссылаются на заданный сайт(условие фильтрации) - соответственно они все попадают на выход, но данные по ссылкам для них не сохраняются. выходной файл для некоторых результатов имеет такие строчки: Спойлер 51 http://domain1.ru/blablabla domain1.ru 45 http://domain31.ru/blablabla domain31.ru 436 http://domain312.ru/blablabla domain312.ru как видно в некоторых результатах нет анкоров ссылок и url(хотя на странице к которой был запрос они точно есть). 2. Как реализовать вывод не domain, а md5 hash от domain?
Нужны ссылки, по которым не выдаются данные и сам пресет. Используйте tools.js и функцию для подсчета MD5 отсюда: https://a-parser.com/threads/1984/#post-6171
Код пресета: Спойлер eyJwcmVzZXQiOiJQYXJzZSBhbGwgdGV4dCBjb250ZW50IGFuZCBTaXRlIGxpbmtz IGFuY2hvcnMiLCJ2YWx1ZSI6eyJwcmVzZXQiOiJQYXJzZSBhbGwgdGV4dCBjb250 ZW50IGFuZCBTaXRlIGxpbmtzIGFuY2hvcnMiLCJwYXJzZXJzIjpbWyJIVE1MOjpU ZXh0RXh0cmFjdG9yIiwiTXkiXSxbIkhUTUw6OkxpbmtFeHRyYWN0b3IiLCJNeSBP bmx5IEFuY2hvcnMiLHsidHlwZSI6ImZpbHRlciIsInJlc3VsdCI6WyJleHRsaW5r cyIsImxpbmsiXSwiZmlsdGVyVHlwZSI6ImNvbnRhaW4iLCJ2YWx1ZSI6Ii5tdmlk ZW8uIiwib3B0aW9uIjoiaW5zZW5zIn1dXSwicmVzdWx0c0Zvcm1hdCI6IiRwMS5w cmVzZXQiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6 IlBhcnNpbmcgcGFnZXMgb25seSB0eHQvJHtxdWVyeS5udW19LnR4dCIsImFkZGl0 aW9uYWxGb3JtYXRzIjpbWyJQYXJzaW5nIHBhZ2VzIExNIGFuY2hvcnMgWyUgZGF0 ZWZpbGUuZm9ybWF0KGZvcm1hdCA9PiAnJWQgJW0gJVknKSAlXS50eHQiLCJbJSBx dWVyeS5udW0gJV1bJSBcIlxcdFwiICVdWyUgcXVlcnkgJV1bJSBcIlxcdFwiICVd WyUgcXVlcnkuZG9tYWluICVdWyUgXCJcXHRcIiAlXSRwMi5wcmVzZXRcbiJdXSwi cmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVlcmllc0Zyb20iOiJmaWxlIiwicXVlcnlG b3JtYXQiOlsiJHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOnRydWUsInNhdmVGYWls ZWRRdWVyaWVzIjp0cnVlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMi OmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2UsInF1ZXJ5 QnVpbGRlcnNPbkFsbExldmVscyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJv dmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIs Im1vcmVPcHRpb25zIjp0cnVlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNB cHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbeyJzb3VyY2UiOiJxdWVyeSIsInR5 cGUiOiJleHRyYWN0RG9tYWluIiwidG8iOiJkb21haW4ifSx7InNvdXJjZSI6ImRv bWFpbiIsInR5cGUiOiJzdHJpbmdSZXBsYWNlIiwic2VhcmNoIjoid3d3LiIsInJl cGxhY2UiOiIiLCJ0byI6ImRvbWFpbiJ9XSwicmVzdWx0c0J1aWxkZXJzIjpbeyJz b3VyY2UiOlsxLFsiZXh0bGlua3MiLCJjbGVhbmFuY2hvciJdXSwidHlwZSI6Imxj IiwiYXJyYXkiOiJleHRsaW5rcyIsInRvIjoiY2xlYW5hbmNob3IifV0sImNvbmZp Z092ZXJyaWRlcyI6W10sInJ1blRhc2tPbkNvbXBsZXRlIjpudWxsLCJ1c2VSZXN1 bHRzRmlsZUFzUXVlcmllc0ZpbGUiOmZhbHNlLCJydW5UYXNrT25Db21wbGV0ZUNv bmZpZyI6ImRlZmF1bHQiLCJ0b29sc0pTIjoiIiwicXVlcmllc0ZpbGUiOlsiMFVy bHMudHh0Il19LCJwYXJzZXJzQ29uZlByZXNldHMiOnsiSFRNTDo6VGV4dEV4dHJh Y3RvciI6eyJNeSI6eyJ1c2VyLWFnZW50IjoiR29vZ2xlYm90LzIuMSAoK2h0dHA6 Ly93d3cuZ29vZ2xlYm90LmNvbS9ib3QuaHRtbCkiLCJxdWVyeWZvcm1hdCI6IiRx dWVyeSIsInNraXBhbmNob3JzIjpmYWxzZSwiaGVhZGVycyI6IiIsImdvb2RDb2Rl UmVnZXgiOiIiLCJicm93c2VyIjpmYWxzZSwiZ29vZENvZGUiOlsyMDBdLCJwcm94 eUNoZWNrZXIiOiIqIiwiZG9fZ3ppcCI6dHJ1ZSwiYm9keSI6IiIsInRpbWVvdXQi OiI2MCIsIm1heENvb2tpZXMiOiIxNiIsIm1ldGhvZCI6IkdFVCIsInVzZXByb3h5 Ijp0cnVlLCJieXBhc3NDbG91ZEZsYXJlIjp0cnVlLCJvbmx5aGVhZGVycyI6ZmFs c2UsImV4dHJhcXVlcnkiOiIiLCJjb29raWVzIjoiIiwicHJveHlyZXRyaWVzIjoi MjUiLCJyZXF1ZXN0ZGVsYXkiOiIwIiwicHJveHliYW5uZWRjbGVhbnVwIjoiMzAw IiwibWluYmxvY2tsZW5ndGgiOiIxMCIsImZvcm1hdHJlc3VsdCI6IiR0ZXh0cy5m b3JtYXQoJyR0ZXh0XFxuJykiLCJkZXRlY3RjaGFyc2V0Ijp0cnVlLCJyZWN1cnNl IjoiNyIsIm1heF9zaXplIjoiMTA0ODU3NiJ9fSwiSFRNTDo6TGlua0V4dHJhY3Rv ciI6eyJNeSBPbmx5IEFuY2hvcnMiOnsicHJveHlyZXRyaWVzIjoiMTAwIiwidXNl cHJveHkiOnRydWUsInF1ZXJ5Zm9ybWF0IjoiJHF1ZXJ5IiwiZm9ybWF0cmVzdWx0 IjoiWyUgRk9SRUFDSCBleHRsaW5rcyAlXVslIGNsZWFuYW5jaG9yICVdPT09PT0+ WyUgbGluayAlXVslIFwiXFx0XCIgJV1bJSBFTkQgJV0iLCJtYXhfc2l6ZSI6IjI2 MjE0NDAiLCJwcm94eWJhbm5lZGNsZWFudXAiOiIzMDAiLCJ0aW1lb3V0IjoiMTAw IiwicmVxdWVzdGRlbGF5IjoiMCIsInByb3h5Q2hlY2tlciI6IioiLCJnb29kQ29k ZSI6WzIwMF0sImdvb2RDb2RlUmVnZXgiOiIiLCJtZXRob2QiOiJHRVQiLCJib2R5 IjoiIiwiY29va2llcyI6IiIsInVzZXItYWdlbnQiOiJHb29nbGVib3QvMi4xICgr aHR0cDovL3d3dy5nb29nbGVib3QuY29tL2JvdC5odG1sKSIsImhlYWRlcnMiOiIi LCJvbmx5aGVhZGVycyI6ZmFsc2UsImRldGVjdGNoYXJzZXQiOnRydWUsImJyb3dz ZXIiOmZhbHNlLCJyZWN1cnNlIjoiMCIsIm1heENvb2tpZXMiOiIxNiIsImJ5cGFz c0Nsb3VkRmxhcmUiOnRydWUsInN1YkRvbWFpbnMiOmZhbHNlLCJmb2xsb3ciOjIs ImRvX2d6aXAiOnRydWV9fX19 Входной файл прилагается.
Все работает согласно ваших настроек. Я запустил ваш пресет с вашими запросами и выбрал несколько ссылок, для которых не вывелись внешние ссылки. И каждую такую ссылку я проверил вручную. Вот что получилось: https://top.mail.ru/Rating/ - нету ссылки содержащей .mvideo. http://expert.ru/expert/2012/41/ - содержит ссылку с mvideo. но нет с .mvideo. http://pikabu.ru/tag/%CC%E2%E8%E4%E5%EE/hot - нету ссылки содержащей .mvideo. но есть много, которые содержат mvideo https://forums.overclockers.ru/search.php?author_id=3090&sr=posts - ссылки с .mvideo. при открытии с юзерагентом Googlebot/2.1 (+http://www.googlebot.com/bot.html) нету, но такая ссылка есть, если открывать к примеру со стандартным юзерагентом (Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)) http://bobrdobr.ru/tags/public/laptop/ - нету ссылки содержащей .mvideo.