Всем привет! Есть еще одна задача для парсера, о которой я давно думаю, но не знаю как самостоятельно реализовать. Поэтому опять надежда на наш дорого саппорт Здача следующая: найти русскоязычные сайты, которые не имеют мобильной версии. Берем список кивордов (например эти http://hastebin.com/coyifonuke.txt ) Парсим яндекс, чтобы получить список сайтов, которые по этим кивордам выдаются В гугловском Mobile-Friendly Test проверяем имеет ли сайт мобильную версию. Для этого подставляем домен сайта в конце ссылки как тут https://www.google.com/webmasters/tools/mobile-friendly/?url=a-parser.com я подставил домен a-parser.com Парсим что выдал гугл. Если гугл говорит, что мобильная версия есть - то ок, этот сайт нам не интересен и можно его забыть. Если гугл говорит, что мобильной версии нет, то надо сохранить whois этого сайта в текстовом файле, который будет называться как домен этого сайта Вот, как-то так. Заранее спасибо!
Данная задача решается 3-мя заданиями. В каждом следующем мы подставляем в качестве файла запросов, файл, полученный в предыдущем. 1) Парсим Яндекс. Спойлер: Пресет для импорта Код: eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY1Mi8tMSIs InZhbHVlIjp7InByZXNldCI6Imh0dHA6Ly9hLXBhcnNlci5jb20vdGhyZWFkcy8x NjUyLy0xIiwicGFyc2VycyI6W1siU0U6OllhbmRleCIsImRlZmF1bHQiXV0sInJl c3VsdHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUi LCJyZXN1bHRzRmlsZU5hbWUiOiJ5YW5kbGluay50eHQiLCJhZGRpdGlvbmFsRm9y bWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJzdHJpbmciLCJxdWVyeUZvcm1hdCI6 WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVy aWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxz ZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlfSwicmVzdWx0c09w dGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVwVW5p cXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoi IiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRz QnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfX0= 2) Проверяем на наличие мобильной версии, и если нет, то сохраняем ссылку в файл. Спойлер: Пресет для импорта Код: eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY1Mi8tMiIs InZhbHVlIjp7InByZXNldCI6Imh0dHA6Ly9hLXBhcnNlci5jb20vdGhyZWFkcy8x NjUyLy0yIiwicGFyc2VycyI6W1siTmV0OjpIVFRQIiwiZGVmYXVsdCIseyJ0eXBl Ijoib3ZlcnJpZGUiLCJpZCI6InF1ZXJ5Zm9ybWF0IiwidmFsdWUiOiJodHRwczov L3d3dy5nb29nbGVhcGlzLmNvbS9wYWdlc3BlZWRvbmxpbmUvdjNiZXRhMS9tb2Jp bGVSZWFkeT9rZXk9QUl6YVN5RGtFWC1mMUpOTFFMQzE2NFNaYW9iQUxxRnY0UEhW LWtBJnNjcmVlbnNob3Q9ZmFsc2Umc25hcHNob3RzPWZhbHNlJmxvY2FsZT1lbl9V UyZ1cmw9aHR0cCUzQSUyRiUyRiRxdWVyeS5kb20lMkYmc3RyYXRlZ3k9bW9iaWxl JmZpbHRlcl90aGlyZF9wYXJ0eV9yZXNvdXJjZXM9ZmFsc2UmY2FsbGJhY2s9X2Nh bGxiYWNrc18uX2RjdXZiQnZuSVhWQiJ9LHsidHlwZSI6ImZpbHRlciIsInJlc3Vs dCI6ImRhdGEiLCJmaWx0ZXJUeXBlIjoiY29udGFpbiIsInZhbHVlIjoiXCJwYXNz XCI6IGZhbHNlIiwib3B0aW9uIjoic2VucyJ9XV0sInJlc3VsdHNGb3JtYXQiOiIk cXVlcnkuZG9tXFxuIiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJyZXN1bHRzRmls ZU5hbWUiOiJ5YW5kV09tb2JpbGUudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltd LCJyZXN1bHRzVW5pcXVlIjoic3RyaW5nIiwicXVlcnlGb3JtYXQiOlsiJHF1ZXJ5 Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmllcyI6ZmFs c2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2UsInF1ZXJ5 QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7 Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5v IiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3Vs dHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbeyJzb3VyY2UiOiJxdWVyeSIs InR5cGUiOiJleHRyYWN0RG9tYWluIiwidG8iOiJkb20ifV0sInJlc3VsdHNCdWls ZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119fQ== 3) Для всех ссылок проверяем whois и записываем в файл, который называется как домен этого сайта. Спойлер: Пресет для импорта Код: eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY1Mi8tMyIs InZhbHVlIjp7InByZXNldCI6Imh0dHA6Ly9hLXBhcnNlci5jb20vdGhyZWFkcy8x NjUyLy0zIiwicGFyc2VycyI6W1siTmV0OjpXaG9pcyIsImRlZmF1bHQiLHsidHlw ZSI6Im92ZXJyaWRlIiwiaWQiOiJyYXdkYXRhIiwidmFsdWUiOnRydWV9XV0sInJl c3VsdHNGb3JtYXQiOiIkcDEuZGF0YSIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwi cmVzdWx0c0ZpbGVOYW1lIjoieWFuZC8ke3F1ZXJ5fS50eHQiLCJhZGRpdGlvbmFs Rm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0Ijpb IiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJp ZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNl LCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2V9LCJyZXN1bHRzT3B0 aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlx dWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIi LCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNC dWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119fQ== В результате получим папку yand, в которой будут файлы с названиями в виде домена и содержимым whois.