Приветствую! Помогите, пожалуйста, с настройкой A-Parser. У меня есть список из ~3000 сайтов . На многих из них используется защита Cloudflare. Необходимо спарсить с этих сайтов все внешние ссылки, ведущие на приложение в play.google.com.
Используйте HTML::LinkExtractor + Parse to level для прохода в глубину (если требуется собирать не только из главных) + Bypass CloudFlare using Browser для обхода CF + фильтр по $extlinks.$i.link для фильтрации только ссылок, ведущих на play.google.com + вывод их в результат. Также лучше включить уникализацию запросов и уникализацию результатов для исключения дублей. Спойлер: Простой пример Код: eJyVVEtv2zAM/i9CgK5AELQDevEtDRpsQ1JnbXpKc1Bt2tMiS5okZwkM//eR8jNd d9jJJvmR/PhSxTx3B7ex4MA7Fu0qZsI/i1gKGS+lZ1NmuHVgybxjX7brVRSthDo8 nLzlidcWET22Yv5sAL31EawVKaBRpChbSEqMguKRy5IQd6z+N/ztbLhzC6nLdCm5 hcUPq4uRt7cl/Lf7mp82PAc3IvH55oKF8UIr10UJda/gCHLwuJsynqaCcFyyqGJS FILahYFGkTIhPVBnsJvUmGjH4OQlto2i05ftpy1q27gkWnku1Iickfw8y7XOJcwS XaClIYgmoRwg0Xq/71K4pbYFJyYTczvrks2yoP10NSHx9VVdXfek3DM/wlY3bGFQ L1F65AUxmKTcA1m7ONczf6KVGHrQpKXlGKi8KPErVOC8FSpHPIpWgFviGFDtIQQh 5bmjvWOTIFNfyuD/vfFphj1lDtkuOXJJe0PGpUOLwCZyXMS4HR9ORau5lGF0AyyE vy+FTHGZ5xk6fW0dP4bEf8Wo+wrHqXD3flvk0EcJ0n28HrxSvdI53dRbmD5uDMpu oUvVrM6UHQBM37ZHjZpCW+jTtJHb7HivBhSt6DC1uRlUF2VcTOZSiSuXiTxuj6dD lmqLj0KsFrowEqguVUqJU3HwNGzI3LVjIGEg+N55EVJcPCdea+m+PTdUjRU6XJWF Ajs5ztqGTLiUL0+rsYUcndcmVg/WvhtfWAwCJLi6ucaFwqrqff+K9W9d9eFbFlV4 xuyn2zRoKo6wqMMuuXB8t/UfiC7Sbw==
Не подавайте на вход ссылки на tiktok. Либо фильтруйте ссылки, по которым идет проход в глубину, по аналогии с примером в Документации: https://a-parser.com/docs/parsers/h...-only-on-links-that-do-not-contain-word-forum
Столкнулся с проблемой, посмотрел лог запущенного задания, и увидел, что на многих сайтах такая ошибка: 596 HTTPS(C) proxy error: Error: HTTPS(C) Proxy: Error: Read error: EOF (0 KB). Использую прокси от a-parser, тариф не превышаю.
Причин может быть множество. Например, попадаются нерабочие прокси (и парсер просто повторит попытку с другой прокси), не рабочие сайты/ссылки, превышение тарифа и т.д.