Спарсить html карту сайта

  • Автор темы Автор темы Force68
  • Дата начала Дата начала

Force68

A-Parser Enterprise License
A-Parser Enterprise
Подскажите пожалуйста, как можно реализовать такое:
есть некий список доменов,
на которых есть страницы с html картой сайта однотипного вида -
скажем, адреса выглядят так domen.com/maps-1.html, domen.com/maps-2.html
и так далее, в цифровом диапазоне от 1 до скажем 20,

как вытащить с этих карт список ссылок с анкором вида

Код:
<a  href= "http://test.ru/pages1.php">link</a>
<a  href= "http://test.ru/pages2.php">link2</a>
<a  href= "http://test.ru/pages3.php">link3</a>
и т.д.?
 
как вытащить с этих карт список ссылок с анкором вида
ссылки парсит парсер HTML::LinkExtractor
если ссылки совсем однотипные то на вход даем список доменов, а query format указываем такой:
Код:
http://{query}/maps-{num:1:20}.html
 
Странно, но почему то подставляет в парсер необработанный параметр {num:1:20},
что я делаю неправильно?



Код:
Parser HTML::LinkExtractor::0 parse query http://site.ru/map{num:1:20}.php
08/07 20:05:34
Parse page 1
08/07 20:05:34
GET(1): http://site.ru/[B][COLOR=#ff0000]map{num:1:20[/COLOR]}[/B].php - [B]404 Not Found (0 KB)[/B]
08/07 20:05:34
Parse response: 1
08/07 20:05:34
Thread complete work
 
Forbidden, как то странно - но не парсит ни в каком виде, кинул вам url в ЛС, попробуйте сами.
 
iOzcB.png
 
Судя по времени парса у тебя все запросы уходят в ошибки, если ты используешь прокси - то возможно в них проблема, если - нет, то возможно твой ип забанен(там где стоит апарсер)
во время парсинга зайди в Maintenace -> Debug Window -> Parser и нажми Update и посмотри что там происходит, можешь скрин выложить сюда
 
Назад
Верх