SE:: Google. Парсинг урлов с Google запрос site:site.com

  • Автор темы Автор темы ulan
  • Дата начала Дата начала

ulan

A-Parser Enterprise License
A-Parser Enterprise
Входные данные, имеем файл с доменами


Нужно взять каждый домен из списка отпарсить по site:site.com, с подстановками
и сохранить результат в файлы site.com.txt (без www, http://), результаты должны сохраняться только на тот домен который парсим, без поддоменов.

К примеру , сохраняем
http://google.com/13432
http://www.google.com/13432
но не в коем случае не
http://plus.google.com/323er
shot_130809_154302.png
Код:
eyJwcmVzZXQiOiJwYXJzZSBzaXRlOiIsInZhbHVlIjp7InBhcnNlcnMiOltbIlNF
OjpHb29nbGUiLCJkZWZhdWx0Iix7InR5cGUiOiJvcHRpb25zIiwiaWQiOiJwYXJz
ZUFsbCIsInZhbHVlIjp0cnVlfV1dLCJyZXN1bHRzRm9ybWF0IjoicGFyc2VyMSh7
cHJlc2V0fSkiLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxlTmFt
ZSI6InBhcnNlcjEoe2RvbWFpbn0pLnR4dCIsInJlc3VsdHNVbmlxdWUiOiJubyIs
InF1ZXJ5Rm9ybWF0Ijoic2l0ZTp7cXVlcnl9IiwidW5pcXVlUXVlcmllcyI6ZmFs
c2UsImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6
ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1
ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOlt7InNvdXJjZSI6WzAs
InF1ZXJ5Il0sInR5cGUiOiJleHRyYWN0RG9tYWluIiwidG8iOiJkb21haW4ifSx7
InNvdXJjZSI6WzAsInF1ZXJ5Il0sInR5cGUiOiJzdHJpbmdSZXBsYWNlIiwic2Vh
cmNoIjoid3d3LiIsInJlcGxhY2UiOiIiLCJ0byI6InF1ZXJ5In1dLCJjb25maWdP
dmVycmlkZXMiOltdfX0=
Ps. Пока не убрал сохранение поддоменов
 
Это не реализовать, т.к. необходимо домен в выдаче сравнивать с доменом из запроса, а это не поддерживается
 
И еще вопрос при таком конфиге как сейчас сохраняет вот так
site_site.com.txt
как убрать site_
 
ну разве я не смогу вот так сохранить preg_match_all('%^https?:{query}.+?$%im', $subject, $result, PREG_PATTERN_ORDER);


ты можешь делать все что угодно, написать свой парсер на пхп например
когда тебе говорят что это не реализовать средствами апарсера наверно так оно и есть
 
Назад
Верх