1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг Закрытой документации с куки (много страниц html)

Тема в разделе "Техническая поддержка", создана пользователем seomosq, 31 авг 2017.

Метки:
  1. seomosq

    seomosq A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 сен 2015
    Сообщения:
    15
    Симпатии:
    3
    Как собрать url страниц доступные по авторизации я разобрался,
    а вот можно ли как-то собрать страницы в виде html файлов в соответствии со структурой из изначального расположения? (/wiki/ololo.htm, /wiki/more/atata.htm)
     
    #1 seomosq, 31 авг 2017
    Последнее редактирование: 31 авг 2017
  2. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Здравствуйте. Если я правильно понял то вы хотите каждую скачанную страницу сохранять по отдельному пути.
    Вы можете сделать это следующим образом.

    Вариант 1:
    Меняем формат имени файла на такой:
    Код:
    [% query.orig.replace('/','_') %].txt
    Получается имя файла результатов будет аналогично запросу только / мы заменили на _

    Вариант 2:
    Меняем формат имени файла на такой:
    Код:
    [% path = query.orig;
    FOREACH folder IN path.split('/');
            folder _ '/';
    END %]index.html
    Тогда на ссылку типа https://a-parser.com/threads/3791/ вы получите файл который лежит по адресу results\https_\a-parser.com\threads\3791\index.html.
    Если у ссылок в окончании имеются название файлов в конце типа dafault.php или index.html это нужно отслеживать в IF.
    Например так
    Код:
    [%
    path = query.orig;
    pathfile = '';
    FOREACH folder IN path.split('/');
            IF folder.search('.html');
            pathfile = pathfile _ folder;
            ELSE;
           pathfile = pathfile _ folder _ '/';
           END;
     END;
    IF pathfile.search('.html');
    pathfile;
    ELSE;
    pathfile _ 'index.html';
    END;
    %]
     
    #2 Support Денис, 31 авг 2017
    Последнее редактирование: 31 авг 2017
    relay нравится это.
  3. seomosq

    seomosq A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 сен 2015
    Сообщения:
    15
    Симпатии:
    3
    Нет, только html
    Меня бы устроило и смена / на _
    А вариант 2 - это вообще идеально! Благодарю!
     
    Support нравится это.

Поделиться этой страницей