Определение сайтов без мобильной версии

  • Автор темы Автор темы gerbill
  • Дата начала Дата начала

gerbill

A-Parser Enterprise License
A-Parser Enterprise
Всем привет!

Есть еще одна задача для парсера, о которой я давно думаю, но не знаю как самостоятельно реализовать. Поэтому опять надежда на наш дорого саппорт :)

Здача следующая: найти русскоязычные сайты, которые не имеют мобильной версии.

  1. Берем список кивордов (например эти http://hastebin.com/coyifonuke.txt )
  2. Парсим яндекс, чтобы получить список сайтов, которые по этим кивордам выдаются
  3. В гугловском Mobile-Friendly Test проверяем имеет ли сайт мобильную версию. Для этого подставляем домен сайта в конце ссылки как тут https://www.google.com/webmasters/tools/mobile-friendly/?url=a-parser.com я подставил домен a-parser.com
  4. Парсим что выдал гугл. Если гугл говорит, что мобильная версия есть - то ок, этот сайт нам не интересен и можно его забыть. Если гугл говорит, что мобильной версии нет, то надо сохранить whois этого сайта в текстовом файле, который будет называться как домен этого сайта
Вот, как-то так. Заранее спасибо! :)
 
Данная задача решается 3-мя заданиями. В каждом следующем мы подставляем в качестве файла запросов, файл, полученный в предыдущем.

1) Парсим Яндекс.
4pheC.png

Код:
eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY1Mi8tMSIs
InZhbHVlIjp7InByZXNldCI6Imh0dHA6Ly9hLXBhcnNlci5jb20vdGhyZWFkcy8x
NjUyLy0xIiwicGFyc2VycyI6W1siU0U6OllhbmRleCIsImRlZmF1bHQiXV0sInJl
c3VsdHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUi
LCJyZXN1bHRzRmlsZU5hbWUiOiJ5YW5kbGluay50eHQiLCJhZGRpdGlvbmFsRm9y
bWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJzdHJpbmciLCJxdWVyeUZvcm1hdCI6
WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVy
aWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxz
ZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlfSwicmVzdWx0c09w
dGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVwVW5p
cXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoi
IiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRz
QnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfX0=

2) Проверяем на наличие мобильной версии, и если нет, то сохраняем ссылку в файл.
ZN17V.png

Код:
eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY1Mi8tMiIs
InZhbHVlIjp7InByZXNldCI6Imh0dHA6Ly9hLXBhcnNlci5jb20vdGhyZWFkcy8x
NjUyLy0yIiwicGFyc2VycyI6W1siTmV0OjpIVFRQIiwiZGVmYXVsdCIseyJ0eXBl
Ijoib3ZlcnJpZGUiLCJpZCI6InF1ZXJ5Zm9ybWF0IiwidmFsdWUiOiJodHRwczov
L3d3dy5nb29nbGVhcGlzLmNvbS9wYWdlc3BlZWRvbmxpbmUvdjNiZXRhMS9tb2Jp
bGVSZWFkeT9rZXk9QUl6YVN5RGtFWC1mMUpOTFFMQzE2NFNaYW9iQUxxRnY0UEhW
LWtBJnNjcmVlbnNob3Q9ZmFsc2Umc25hcHNob3RzPWZhbHNlJmxvY2FsZT1lbl9V
UyZ1cmw9aHR0cCUzQSUyRiUyRiRxdWVyeS5kb20lMkYmc3RyYXRlZ3k9bW9iaWxl
JmZpbHRlcl90aGlyZF9wYXJ0eV9yZXNvdXJjZXM9ZmFsc2UmY2FsbGJhY2s9X2Nh
bGxiYWNrc18uX2RjdXZiQnZuSVhWQiJ9LHsidHlwZSI6ImZpbHRlciIsInJlc3Vs
dCI6ImRhdGEiLCJmaWx0ZXJUeXBlIjoiY29udGFpbiIsInZhbHVlIjoiXCJwYXNz
XCI6IGZhbHNlIiwib3B0aW9uIjoic2VucyJ9XV0sInJlc3VsdHNGb3JtYXQiOiIk
cXVlcnkuZG9tXFxuIiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJyZXN1bHRzRmls
ZU5hbWUiOiJ5YW5kV09tb2JpbGUudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltd
LCJyZXN1bHRzVW5pcXVlIjoic3RyaW5nIiwicXVlcnlGb3JtYXQiOlsiJHF1ZXJ5
Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmllcyI6ZmFs
c2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2UsInF1ZXJ5
QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7
Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5v
IiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3Vs
dHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbeyJzb3VyY2UiOiJxdWVyeSIs
InR5cGUiOiJleHRyYWN0RG9tYWluIiwidG8iOiJkb20ifV0sInJlc3VsdHNCdWls
ZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119fQ==

3) Для всех ссылок проверяем whois и записываем в файл, который называется как домен этого сайта.
pn21i.png

Код:
eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY1Mi8tMyIs
InZhbHVlIjp7InByZXNldCI6Imh0dHA6Ly9hLXBhcnNlci5jb20vdGhyZWFkcy8x
NjUyLy0zIiwicGFyc2VycyI6W1siTmV0OjpXaG9pcyIsImRlZmF1bHQiLHsidHlw
ZSI6Im92ZXJyaWRlIiwiaWQiOiJyYXdkYXRhIiwidmFsdWUiOnRydWV9XV0sInJl
c3VsdHNGb3JtYXQiOiIkcDEuZGF0YSIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwi
cmVzdWx0c0ZpbGVOYW1lIjoieWFuZC8ke3F1ZXJ5fS50eHQiLCJhZGRpdGlvbmFs
Rm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0Ijpb
IiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJp
ZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNl
LCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2V9LCJyZXN1bHRzT3B0
aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlx
dWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIi
LCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNC
dWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119fQ==

В результате получим папку yand, в которой будут файлы с названиями в виде домена и содержимым whois.
 
Назад
Верх