Доброго времени суток. Нужно спарсить домены с одного сайта.Вот кусок кода страницы с которой нужно собрать: <a href="/whois?tld=ru&domain=0015.RU" rel="/domain_delegation_data?tld=ru&domain=0015.RU"> <a href="/whois?tld=ru&domain=0015100.RU" <a href="/whois?tld=ru&domain=0016.RU" rel="/domain_delegation_data?tld=ru&domain=0016.RU"> Для парсинга использую HTML::LinkExtractor, и вот такое регулярное выражение domain=(.*) В нотепаде находит нормально, но в а-парсере ничего не находит. Подскажите пожалуйста
Парсин только домены с маленькими буквами. А мне нужны и с маленькими и с большими. Вот с етой страници http://statonline.ru/domains?tld=ru&page=2&sort_field=domain_name_idn&order=ASC&rows_per_page=25 НАПРИМЕР 0--X--YANDEX.RU не собирает
Пытался это сделать с помощью HTML::LinkExtractor но в графе Parse Result не знаю какую опцию выбрать Вот скрин задания:
данная регулярка соберет все домены, независимо от регистра символов P.S. советую перед тем как начинать пользоваться регулярками - выучить их, почитать пару статей или лучше учебник
Спасибо! Правда теперь возникла другая проблема: после 1% обработанных запросов количество доменов не изменяется и остановилось на отметке 30081, хотя парсинг страниц продолжается дальше. В строке "Введите запросы" ввожу такую запись http://statonline.ru/domains?tld=ru...d=domain_name_idn&order=ASC&rows_per_page=200 Для того что бы спарсить все станицы В чем может быть проблема?
Как оказалось проблема в самом сайте.Он не переходит на страници где порядковый номер домен больше 30 к
Хотел обойти ету проблему с помощью их фильтра по дате. В строке запроса ставил такую запись http://statonline.ru/domains?create...=ru&create_from=2014-08-26&order=ASC&till_to= Но с 30 к доменов спарсилось только около 10 к. Регулярка та же, и настройки те же что на последнем скрине саппорта
Вопрос в том что даже если я указываю для парсинга всего 10 страниц где находятся 2 к доменов то собирается всего 1,5 к доменов =\.А если по одной странице то все. Почему так, и можно ли ето как то исправить. Раньше такого не наблюдал. А по очереди вставлять по 10 страниц ручками долго времени займет)
Вариантов может быть множество, от неправильных настроек, до неправильного регулярного выражения, которое не будет подходить ко всем вариантам, а также возможном ошибочном суждении о реальном количестве доменов