Всем привет!
В общем появилась задача написать довольно навороченный парсер гугла. Решил для этого использовать A-Parser, но пока не понимаю как написать соответсвующее задание. Суть того что мне нужно состоит в следующем:
В итоге результаты нужно представить в виде набора вложенных папок и текстовых файлов по примеру:
PR_1
PR_3
PR_4
Саппорт мне сказал, что такое задание сделать реально и это радует
Однако, я пока не могу понять как парсеру правильно дать задание чтобы он выдал нужный результат
В общем появилась задача написать довольно навороченный парсер гугла. Решил для этого использовать A-Parser, но пока не понимаю как написать соответсвующее задание. Суть того что мне нужно состоит в следующем:
- Есть список кивордов (для примера 1000 кивордов: http://hastebin.com/ufowilafiq.txt )
- Нужно с гугла получить ссылки на страницы, содержащие эти киворды (причем поиск нужно получить результаты за последнюю неделю)
- Помимо ссылок на сами страницы мне нужно получить еще и ссылки на кэш этих страниц в гугле
- Из полученного списка страниц надо экстрактить их домены второго уровня, чтобы понять Google PR главной страницы сайта
- Понять какую CMS использует каждый сайт
- Из whois получить email для каждого домена
В итоге результаты нужно представить в виде набора вложенных папок и текстовых файлов по примеру:
PR_1
\Joomla
\WordPress
\no CMS
PR_2\domain.com
\Drupalcontacts.txt - тут должны быть мыла, полученные из whois
cache.txt - тут ссылки на кэш гугла. Скорее всего ссылок будет несколько, т.к. разные страницы одного сайта будет выдаваться по разным кейордам при парсинге гугла
cache.txt - тут ссылки на кэш гугла. Скорее всего ссылок будет несколько, т.к. разные страницы одного сайта будет выдаваться по разным кейордам при парсинге гугла
\WordPress
\no CMS
PR_3
PR_4
Саппорт мне сказал, что такое задание сделать реально и это радует
Последнее редактирование: