Сбор внешних ссылок

Karl fSmith

A-Parser Pro License
A-Parser Pro
Приветствую!

Помогите, пожалуйста, с настройкой A-Parser. У меня есть список из ~3000 сайтов . На многих из них используется защита Cloudflare. Необходимо спарсить с этих сайтов все внешние ссылки, ведущие на приложение в play.google.com.
 
Используйте HTML::LinkExtractor HTML::LinkExtractor + Parse to level для прохода в глубину (если требуется собирать не только из главных) + Bypass CloudFlare using Browser для обхода CF + фильтр по $extlinks.$i.link для фильтрации только ссылок, ведущих на play.google.com + вывод их в результат. Также лучше включить уникализацию запросов и уникализацию результатов для исключения дублей.
Код:
eJyVVEtv2zAM/i9CgK5AELQDevEtDRpsQ1JnbXpKc1Bt2tMiS5okZwkM//eR8jNd
d9jJJvmR/PhSxTx3B7ex4MA7Fu0qZsI/i1gKGS+lZ1NmuHVgybxjX7brVRSthDo8
nLzlidcWET22Yv5sAL31EawVKaBRpChbSEqMguKRy5IQd6z+N/ztbLhzC6nLdCm5
hcUPq4uRt7cl/Lf7mp82PAc3IvH55oKF8UIr10UJda/gCHLwuJsynqaCcFyyqGJS
FILahYFGkTIhPVBnsJvUmGjH4OQlto2i05ftpy1q27gkWnku1Iickfw8y7XOJcwS
XaClIYgmoRwg0Xq/71K4pbYFJyYTczvrks2yoP10NSHx9VVdXfek3DM/wlY3bGFQ
L1F65AUxmKTcA1m7ONczf6KVGHrQpKXlGKi8KPErVOC8FSpHPIpWgFviGFDtIQQh
5bmjvWOTIFNfyuD/vfFphj1lDtkuOXJJe0PGpUOLwCZyXMS4HR9ORau5lGF0AyyE
vy+FTHGZ5xk6fW0dP4bEf8Wo+wrHqXD3flvk0EcJ0n28HrxSvdI53dRbmD5uDMpu
oUvVrM6UHQBM37ZHjZpCW+jTtJHb7HivBhSt6DC1uRlUF2VcTOZSiSuXiTxuj6dD
lmqLj0KsFrowEqguVUqJU3HwNGzI3LVjIGEg+N55EVJcPCdea+m+PTdUjRU6XJWF
Ajs5ztqGTLiUL0+rsYUcndcmVg/WvhtfWAwCJLi6ucaFwqrqff+K9W9d9eFbFlV4
xuyn2zRoKo6wqMMuuXB8t/UfiC7Sbw==
 
Спасибо! Всё работает, но парсинг перешёл на tiktok. Что можно сделать?

upload_2024-11-21_20-33-20.png
 
Столкнулся с проблемой, посмотрел лог запущенного задания, и увидел, что на многих сайтах такая ошибка: 596 HTTPS(C) proxy error: Error: HTTPS(C) Proxy: Error: Read error: EOF (0 KB). Использую прокси от a-parser, тариф не превышаю.
 
на многих сайтах такая ошибка: 596 HTTPS(C) proxy error: Error: HTTPS(C) Proxy: Error: Read error: EOF (0 KB).
Причин может быть множество. Например, попадаются нерабочие прокси (и парсер просто повторит попытку с другой прокси), не рабочие сайты/ссылки, превышение тарифа и т.д.
 
Причин может быть множество. Например, попадаются нерабочие прокси (и парсер просто повторит попытку с другой прокси), не рабочие сайты/ссылки, превышение тарифа и т.д.
Понял, спасибо за помощь!
 
Приветствую! Подскажите пожалуйста как вывести в результат только линк страницы сайта, на которой была найдена ссылка ведущая на приложение в play.google.com?
 
Используя пример из 2-го сообщения можно в Общем формате результата прописать условие и выводить текущий запрос если внешних ссылок после фильтра больше 0:
Код:
[% IF p1.extlinks.size > 0;
    query _ "\n";
END %]
 
Назад
Верх