Парсинг Закрытой документации с куки (много страниц html)

seomosq · 31 Авг 2017

Как собрать url страниц доступные по авторизации я разобрался,
а вот можно ли как-то собрать страницы в виде html файлов в соответствии со структурой из изначального расположения? (/wiki/ololo.htm, /wiki/more/atata.htm)

Support Денис · 31 Авг 2017

Здравствуйте. Если я правильно понял то вы хотите каждую скачанную страницу сохранять по отдельному пути.
Вы можете сделать это следующим образом.

Вариант 1:
Меняем формат имени файла на такой:

Код:

[% query.orig.replace('/','_') %].txt

Получается имя файла результатов будет аналогично запросу только / мы заменили на _

Вариант 2:
Меняем формат имени файла на такой:

Код:

[% path = query.orig;
FOREACH folder IN path.split('/');
        folder _ '/';
END %]index.html

Тогда на ссылку типа https://a-parser.com/threads/3791/ вы получите файл который лежит по адресу results\https_\a-parser.com\threads\3791\index.html.
Если у ссылок в окончании имеются название файлов в конце типа dafault.php или index.html это нужно отслеживать в IF.
Например так

Код:

[%
path = query.orig;
pathfile = '';
FOREACH folder IN path.split('/');
        IF folder.search('.html');
        pathfile = pathfile _ folder;
        ELSE;
       pathfile = pathfile _ folder _ '/';
       END;
 END;
IF pathfile.search('.html');
pathfile;
ELSE;
pathfile _ 'index.html';
END;
%]

seomosq · 31 Авг 2017

Нет, только html
Меня бы устроило и смена / на _
А вариант 2 - это вообще идеально! Благодарю!

Парсинг Закрытой документации с куки (много страниц html)

seomosq

A-Parser Pro License

Support Денис

A-Parser Enterprise License

seomosq

A-Parser Pro License

О нас

Быстрая навигация

Соцсети

Поддержка