1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг доменов

Тема в разделе "Техническая поддержка", создана пользователем Siava, 1 сен 2014.

  1. Siava

    Siava A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 мар 2013
    Сообщения:
    29
    Симпатии:
    0
    Доброго времени суток. Нужно спарсить домены с одного сайта.Вот кусок кода страницы с которой нужно собрать:
    <a href="/whois?tld=ru&amp;domain=0015.RU"
    rel="/domain_delegation_data?tld=ru&amp;domain=0015.RU">
    <a href="/whois?tld=ru&amp;domain=0015100.RU"
    <a href="/whois?tld=ru&amp;domain=0016.RU"
    rel="/domain_delegation_data?tld=ru&amp;domain=0016.RU">
    Для парсинга использую HTML::LinkExtractor, и вот такое регулярное выражение domain=(.*)
    В нотепаде находит нормально, но в а-парсере ничего не находит.
    Подскажите пожалуйста
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    domain=(.*?)"
     
  3. Siava

    Siava A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 мар 2013
    Сообщения:
    29
    Симпатии:
    0
    #3 Siava, 1 сен 2014
    Последнее редактирование: 1 сен 2014
  4. Siava

    Siava A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 мар 2013
    Сообщения:
    29
    Симпатии:
    0
    Пытался это сделать с помощью HTML::LinkExtractor но в графе Parse Result не знаю какую опцию выбрать
    Вот скрин задания:
     

    Вложения:

  5. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    данная регулярка соберет все домены, независимо от регистра символов

    [​IMG]

    P.S. советую перед тем как начинать пользоваться регулярками - выучить их, почитать пару статей или лучше учебник :)
     
  6. Siava

    Siava A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 мар 2013
    Сообщения:
    29
    Симпатии:
    0
    Спасибо!
    Правда теперь возникла другая проблема: после 1% обработанных запросов количество доменов не изменяется и остановилось на отметке 30081, хотя парсинг страниц продолжается дальше.
    В строке "Введите запросы" ввожу такую запись
    http://statonline.ru/domains?tld=ru...d=domain_name_idn&order=ASC&rows_per_page=200
    Для того что бы спарсить все станицы
    В чем может быть проблема?
     
    #6 Siava, 2 сен 2014
    Последнее редактирование: 2 сен 2014
  7. Siava

    Siava A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 мар 2013
    Сообщения:
    29
    Симпатии:
    0
    Как оказалось проблема в самом сайте.Он не переходит на страници где порядковый номер домен больше 30 к
     
  8. Siava

    Siava A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 мар 2013
    Сообщения:
    29
    Симпатии:
    0
    Хотел обойти ету проблему с помощью их фильтра по дате.
    В строке запроса ставил такую запись
    http://statonline.ru/domains?create...=ru&create_from=2014-08-26&order=ASC&till_to=
    Но с 30 к доменов спарсилось только около 10 к. Регулярка та же, и настройки те же что на последнем скрине саппорта
     
  9. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    в чем вопрос? я думаю это задача пользователя правильно определить границы парсинга :)
     
  10. Siava

    Siava A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 мар 2013
    Сообщения:
    29
    Симпатии:
    0
    Вопрос в том что даже если я указываю для парсинга всего 10 страниц где находятся 2 к доменов то собирается всего 1,5 к доменов =\.А если по одной странице то все. Почему так, и можно ли ето как то исправить. Раньше такого не наблюдал. А по очереди вставлять по 10 страниц ручками долго времени займет)
     
    #10 Siava, 2 сен 2014
    Последнее редактирование: 2 сен 2014
  11. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    Вариантов может быть множество, от неправильных настроек, до неправильного регулярного выражения, которое не будет подходить ко всем вариантам, а также возможном ошибочном суждении о реальном количестве доменов
     

Поделиться этой страницей