1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2200+ и мы растем!
    Скрыть объявление

Спарсить html карту сайта

Тема в разделе "Техническая поддержка", создана пользователем Force68, 8 июл 2013.

  1. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    48
    Подскажите пожалуйста, как можно реализовать такое:
    есть некий список доменов,
    на которых есть страницы с html картой сайта однотипного вида -
    скажем, адреса выглядят так domen.com/maps-1.html, domen.com/maps-2.html
    и так далее, в цифровом диапазоне от 1 до скажем 20,

    как вытащить с этих карт список ссылок с анкором вида

    Код:
    <a  href= "http://test.ru/pages1.php">link</a>
    <a  href= "http://test.ru/pages2.php">link2</a>
    <a  href= "http://test.ru/pages3.php">link3</a>
    и т.д.?
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.296
    Симпатии:
    1.764
    ссылки парсит парсер HTML::LinkExtractor
    если ссылки совсем однотипные то на вход даем список доменов, а query format указываем такой:
    Код:
    http://{query}/maps-{num:1:20}.html
     
  3. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    48
    Forbidden, спасибо!
     
  4. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    48
    Странно, но почему то подставляет в парсер необработанный параметр {num:1:20},
    что я делаю неправильно?



    Код:
    Parser HTML::LinkExtractor::0 parse query http://site.ru/map{num:1:20}.php
    08/07 20:05:34
    Parse page 1
    08/07 20:05:34
    GET(1): http://site.ru/[B][COLOR=#ff0000]map{num:1:20[/COLOR]}[/B].php - [B]404 Not Found (0 KB)[/B]
    08/07 20:05:34
    Parse response: 1
    08/07 20:05:34
    Thread complete work
     
  5. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.296
    Симпатии:
    1.764
    Макросы в тесте не работают :)
     
  6. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    48
    Forbidden, как то странно - но не парсит ни в каком виде, кинул вам url в ЛС, попробуйте сами.
     
  7. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.296
    Симпатии:
    1.764
  8. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    48
    Вы будите смеятца :(

    [​IMG]
     
  9. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.296
    Симпатии:
    1.764
    Судя по времени парса у тебя все запросы уходят в ошибки, если ты используешь прокси - то возможно в них проблема, если - нет, то возможно твой ип забанен(там где стоит апарсер)
    во время парсинга зайди в Maintenace -> Debug Window -> Parser и нажми Update и посмотри что там происходит, можешь скрин выложить сюда
     

Поделиться этой страницей