Парсинг доменов

  • Автор темы Автор темы Siava
  • Дата начала Дата начала

Siava

A-Parser Enterprise License
A-Parser Enterprise
Доброго времени суток. Нужно спарсить домены с одного сайта.Вот кусок кода страницы с которой нужно собрать:
<a href="/whois?tld=ru&amp;domain=0015.RU"
rel="/domain_delegation_data?tld=ru&amp;domain=0015.RU">
<a href="/whois?tld=ru&amp;domain=0015100.RU"
<a href="/whois?tld=ru&amp;domain=0016.RU"
rel="/domain_delegation_data?tld=ru&amp;domain=0016.RU">
Для парсинга использую HTML::LinkExtractor, и вот такое регулярное выражение domain=(.*)
В нотепаде находит нормально, но в а-парсере ничего не находит.
Подскажите пожалуйста
 
Последнее редактирование:
Пытался это сделать с помощью HTML::LinkExtractor но в графе Parse Result не знаю какую опцию выбрать
Вот скрин задания:
 

Вложения

  • Безымянный.png
    Безымянный.png
    33,8 КБ · Просмотры: 6
Парсин только домены с маленькими буквами. А мне нужны и с маленькими и с большими.

данная регулярка соберет все домены, независимо от регистра символов

svbcH.png


P.S. советую перед тем как начинать пользоваться регулярками - выучить их, почитать пару статей или лучше учебник :)
 
Спасибо!
Правда теперь возникла другая проблема: после 1% обработанных запросов количество доменов не изменяется и остановилось на отметке 30081, хотя парсинг страниц продолжается дальше.
В строке "Введите запросы" ввожу такую запись
http://statonline.ru/domains?tld=ru...d=domain_name_idn&order=ASC&rows_per_page=200
Для того что бы спарсить все станицы
В чем может быть проблема?
 
Последнее редактирование:
Как оказалось проблема в самом сайте.Он не переходит на страници где порядковый номер домен больше 30 к
 
Хотел обойти ету проблему с помощью их фильтра по дате.
В строке запроса ставил такую запись
http://statonline.ru/domains?create...=ru&create_from=2014-08-26&order=ASC&till_to=
Но с 30 к доменов спарсилось только около 10 к. Регулярка та же, и настройки те же что на последнем скрине саппорта
 
в чем вопрос? я думаю это задача пользователя правильно определить границы парсинга :)
 
в чем вопрос? я думаю это задача пользователя правильно определить границы парсинга :)
Вопрос в том что даже если я указываю для парсинга всего 10 страниц где находятся 2 к доменов то собирается всего 1,5 к доменов =\.А если по одной странице то все. Почему так, и можно ли ето как то исправить. Раньше такого не наблюдал. А по очереди вставлять по 10 страниц ручками долго времени займет)
 
Последнее редактирование:
Вариантов может быть множество, от неправильных настроек, до неправильного регулярного выражения, которое не будет подходить ко всем вариантам, а также возможном ошибочном суждении о реальном количестве доменов
 
Назад
Верх