Парсинг ссылок по запросам inurl:.php?id=

roger22

New Member
Здравствуйте . Пожалуйста подскажите, как настроить а-парсер под парс страниц с гугла, по доркам .
В данный момент настройки стоят по дефлопу. Но,почему-то парсит не очень много ссылок . К примеру по доркам такого вида: "inurl:.php?id=" , в гугле больше ляма страниц. Парсер находит около 10-30 тысяч. Мне нужно бооольше ссылок :) . Так-же столкнулся с такой траблой: Когда парсю ссылки через :"редактор заданий" много запросов идет в неудачные , а когда парсю через:",быстрое задание " все ок .
 
Для наибольшего кол-ва результатов, добавляй к запросу перебор. Например {az:aaa:zzz} или {subs:folder} - где folder папка с файлом где будут запросы ,будет перебор всех вариантов. Насчет второго вопроса, смотри в сторону прокси, гугл очень остро реагирует на парсинг с операторами. Нужны хорошие прокси и много. Попробуй поставить повтор с другим прокси, например 10 повторов.
bC3dzWpzTGqdPp9iVk35sw.png


Это
переопределение
s3OAmXIKSFKi0sAl-Krjpg.png
 
Последнее редактирование:
Для наибольшего кол-ва результатов, добавляй к запросу перебор. Например {az:aaa:zzz} или {subs:folder} - где folder папка с файлом где будут запросы ,будет перебор всех вариантов. Насчет второго вопроса, смотри в сторону прокси, гугл очень остро реагирует на парсинг с операторами. Нужны хорошие прокси и много. Попробуй поставить повтор с другим прокси, например 10 повторов.
bC3dzWpzTGqdPp9iVk35sw.png


Это
переопределение
s3OAmXIKSFKi0sAl-Krjpg.png
Спасибо . Но этот метод с перебором не подойдет так как в большенстве случаев, он парсит дубли .
 
Спасибо . Но этот метод с перебором не подойдет так как в большенстве случаев, он парсит дубли .
Я тебе советую не с выдачи дергать сайты с дорками, а базу доменов прочекать на эти дорки ;)
Так как с выдачи уже как правило все задрочены сайты. А, вот с базы доменов, можно более менее нормально надергать. И скорость в разы быстрее. У меня этот метод показал хороший результат.
 
Я тебе советую не с выдачи дергать сайты с дорками, а базу доменов прочекать на эти дорки ;)
Так как с выдачи уже как правило все задрочены сайты. А, вот с базы доменов, можно более менее нормально надергать. И скорость в разы быстрее. У меня этот метод показал хороший результат.
Пожалуйста подскажи подробнее как это сделать ? Можно в лс
 
Зачем в лс, информация, думаю, не секретная и передаваться будет не за деньги, зато может другие пользователи почерпнут для себя что-то новое.
 
Зачем в лс, информация, думаю, не секретная и передаваться будет не за деньги, зато может другие пользователи почерпнут для себя что-то новое.
Ну в лс просто хотел обсудить детали . А так конечно не настаиваю можно и в теме .
 
Да все же выше уже написано. Зарежаем базу доменов, если нужно сначала прогоняем на cms, через Net::HTTP чекаем по признакам, путем подстановки и перебором нашей дорки через {subs:folder}. И усе.

Где брать список доменов, это уже гуглите сами. Но проблем с этим нет особо. В конце концов на форуме, есть пример как распарсить выдачу на домены.
 
Последнее редактирование:
Да все же выше уже написано. Зарежаем базу доменов, если нужно сначала прогоняем на cms, через Net::HTTP чекаем по признакам, путем подстановки и перебором нашей дорки через {subs:folder}. И усе.

Где брать список доменов, это уже гуглите сами. Но проблем с этим нет особо. В конце концов на форуме, есть пример как распарсить выдачу на домены.
Спасибо.Буду пробовать копать .
 
Да все же выше уже написано. Зарежаем базу доменов, если нужно сначала прогоняем на cms, через Net::HTTP чекаем по признакам, путем подстановки и перебором нашей дорки через {subs:folder}. И усе.

Где брать список доменов, это уже гуглите сами. Но проблем с этим нет особо. В конце концов на форуме, есть пример как распарсить выдачу на домены.
Привет. Подскажите, где "пример как распарсить выдачу на домены".

З.Ы. метод перебора
$query {az:a:zzz}
$query {num:1:10000}
 
Последнее редактирование:
Назад
Верх