Парсинг Закрытой документации с куки (много страниц html)

seomosq

A-Parser Pro License
A-Parser Pro
Как собрать url страниц доступные по авторизации я разобрался,
а вот можно ли как-то собрать страницы в виде html файлов в соответствии со структурой из изначального расположения? (/wiki/ololo.htm, /wiki/more/atata.htm)
 
Последнее редактирование:
Здравствуйте. Если я правильно понял то вы хотите каждую скачанную страницу сохранять по отдельному пути.
Вы можете сделать это следующим образом.

Вариант 1:
Меняем формат имени файла на такой:
Код:
[% query.orig.replace('/','_') %].txt
Получается имя файла результатов будет аналогично запросу только / мы заменили на _

Вариант 2:
Меняем формат имени файла на такой:
Код:
[% path = query.orig;
FOREACH folder IN path.split('/');
        folder _ '/';
END %]index.html
Тогда на ссылку типа https://a-parser.com/threads/3791/ вы получите файл который лежит по адресу results\https_\a-parser.com\threads\3791\index.html.
Если у ссылок в окончании имеются название файлов в конце типа dafault.php или index.html это нужно отслеживать в IF.
Например так
Код:
[%
path = query.orig;
pathfile = '';
FOREACH folder IN path.split('/');
        IF folder.search('.html');
        pathfile = pathfile _ folder;
        ELSE;
       pathfile = pathfile _ folder _ '/';
       END;
 END;
IF pathfile.search('.html');
pathfile;
ELSE;
pathfile _ 'index.html';
END;
%]
 
Последнее редактирование:
Нет, только html
Меня бы устроило и смена / на _
А вариант 2 - это вообще идеально! Благодарю!
 
Назад
Верх