Парсинг названий фирмы,ее адресов и кантактов

  • Автор темы Автор темы Siava
  • Дата начала Дата начала

Siava

A-Parser Enterprise License
A-Parser Enterprise
Добрый день!Нужно спарсить названия фирмы,ее адресов и контактов на сайт http://toplutsk.com/biz/. Результат должен быть в форме: Название фирмы,адрес,телефон.
Версия программы очень старая 1.0.236.
Подскажите пожалуйста как ето реализовать?В программе новичок..
 
Последнее редактирование:
Делал по этому примеру http://a-parser.com/threads/873/ но говорит что не верное регулярное выражение. Я использовал такое
<h2 class="hh2">(.*?)<p>Адреса (.*?)<p>Телефон (.?*) и такое <h2 class="hh2">.*?<p>Адреса .*?<p>Телефон .?*. Подскажите пожалуйста что я сделал не так?
upload_2014-8-7_14-17-46.png
 

Вложения

  • upload_2014-8-7_14-17-27.png
    upload_2014-8-7_14-17-27.png
    157,7 КБ · Просмотры: 0
.?* - это некорректная запись, правильно так - .*?
чтобы сохранять несколько значений - надо добавить $2 и $3 - иконка с + в строке Result type

Для использования многостраничного парсинга в Query format необходимо указать макрос {pagenum} в том месте где надо подставить номер страницы
 
.?* - это некорректная запись, правильно так - .*?
чтобы сохранять несколько значений - надо добавить $2 и $3 - иконка с + в строке Result type

Для использования многостраничного парсинга в Query format необходимо указать макрос {pagenum} в том месте где надо подставить номер страницы
Изменил все что вы сказали,ошибки нет. Но файл с результатами пустой. Регулярку не верно составил?
upload_2014-8-7_14-45-54.png
 
Скорее всего неверно, я не могу знать
Регулярку надо сначала протестировать - например в notepad++ или онлайн сервисах вроде http://www.regexr.com/
 
Проверил на сайте, регулярка работает- <h2 class="hh2">(.*?)<p>Адреса: (.*?)<p>Телефон: [0-9]*...а текстовый файл с результатами пустой.....
 
Последнее редактирование:
Проверил на сайте, регулярка работает- <h2 class="hh2">(.*?)<p>Адреса: (.*?)<p>Телефон: [0-9]*...а текстовый файл с результатами пустой.....

еще одна ошибка - это то что в качестве результата для парсинга выбран запрос {query}, должен быть {data} - исходный код страницы
 
upload_2014-8-7_20-23-44.png
Регулярка: <h2 class="hh2">([^<]+).*?<p>Адреса:([^<]+).*?<p>Телефон:(?:&nbsp;| )([-+() 0-9]*). Спасибо поддержке!!
 
Назад
Верх