Подскажите новичку

Kreola · 20 Окт 2014

Суть не в арабском, Если я пытаюсь сделать по логике, то получается так.

1) Формируем формат результата
2) Формируем списки замен.
3) Парсим резуьтат.
На деле же пункты 2 и 3 меняются местами.
Покажите пожалуйста на примере, как это должно выглядеть, либо ткните носом, где почитать про это.
Спасибо.
Вы говорите разобраться с основами, но в документации нет ни слова про нормальный рабочий пример, там только обрывки всяких задач, которые показывают только поверхностно, что умеет парсер, а не как пользоваться в той или иной ситуации.

Forbidden · 20 Окт 2014

Kreola сказал(а):
На деле же пункты 2 и 3 меняются местами.

куда меняются? вот порядок обхода запроса http://a-parser.com/wiki/query-results-relation/

Kreola сказал(а):
там только обрывки всяких задач, которые показывают только поверхностно, что умеет парсер, а не как пользоваться в той или иной ситуации.

какие обрывки? на форуме уже десятки примеров как пользоваться Parse custom, если в арабском не суть то вот очередной пример

Forbidden · 20 Окт 2014

Вот пример как избавиться от кучи ручных замен используя возможности шаблонизатора:

Код:

[% replace = {'0' => 'a', '1' => 'b', '2' => 'c', '3' => 'e'};
FOREACH item = p1.numbers;
 FOREACH replace;
  item.number = item.number | replace(key, value);
 END;
 item.number _ "\n";
END;
-%]

Kreola · 27 Окт 2014

Здравствуйте!
Еще вопросик.
Вот я создал тестовый запрос. Я могу каким-то образом увидеть результат в логе? т.е. чтоб вывелось то что я пытаюсь засунуть в конечный файл.
Спасибо.

Forbidden · 27 Окт 2014

Да, результат отображается непосредственно в конце лога, т.е. в данном случае результат пустой

Kreola · 6 Ноя 2014

Приветствую снова.
Помаленьку вникаем) однако возник вопрос, каким образом передавать данные из одного парсера в другой?
к примеру 1-й собирает ссылки и фильтрует их, а второй уже конкретную инфу с ссылок что собрал первый?

Bran · 7 Ноя 2014

Kreola сказал(а):
Приветствую снова.
Помаленьку вникаем) однако возник вопрос, каким образом передавать данные из одного парсера в другой?
к примеру 1-й собирает ссылки и фильтрует их, а второй уже конкретную инфу с ссылок что собрал первый?
Посмотреть вложение 138

Никак

Forbidden · 7 Ноя 2014

Bran сказал(а):
Никак

Верно, просто разбиваем на 2 задания

Kreola · 12 Ноя 2014

И снова здравствуйте!
Вопрос:
Имеем 2 регулярных выражения которые собираются в 2 разных массива. Каким образом их объединить в один и почистить?

или будет достаточно указать 1 и тот же массив?
И как дальше чистить мусор?
Если к примеру регулярка забирает не ссылку а ссылку + теги
/animals-and-pets/for-sale/2/">2</a></li><li><a target="_self" href=" (вариант поправить регулярку, это конечно само собой, но все-таки)
Спасибо.

Forbidden · 12 Ноя 2014

Kreola сказал(а):
или будет достаточно указать 1 и тот же массив?

можно сохранять в один и тот же массив если это подходит под задачу, при этом названия элементов необходимо оставлять одинаковыми

Kreola сказал(а):
Если к примеру регулярка забирает не ссылку а ссылку + теги

через Results builder, например через замену по регулярному выражению, но зачем если можно сразу без мусора парсить?

Kreola · 12 Ноя 2014

Еще вопрос, подскажите как использую Net:http получить все ссылки на сайт http://a-parser.com/ используя регулярку? я уже сломал всю голову. Получать через LinkExtractor не вариант.

Forbidden · 12 Ноя 2014

Kreola сказал(а):
Еще вопрос, подскажите как использую Net:http получить все ссылки на сайт http://a-parser.com/ используя регулярку? я уже сломал всю голову. Получать через LinkExtractor не вариант.

аналогично как описано в этом топике http://a-parser.com/threads/1333/ только используя другую регулярку, например

Код:

<a href="([^"]+)"

Kreola · 12 Ноя 2014

Это я понимаю, но ведь это будет только с этой страницы, а как по всем страницам в режиме паука?
Вернее я понимаю что надо задать маску, как например тут http://a-parser.com/threads/{num:1:999999}/
но как быть где так нельзя сделать? а если есть только начальный урл и возможности моделировать нету. ( теоретически, возможно просто познаний не хватает)
У меня ссылка идет в теге <p onclick="wo('/бла/бла/бла/блаe/3263014/')" class='ar'>

Forbidden · 14 Ноя 2014

Kreola сказал(а):
Это я понимаю, но ведь это будет только с этой страницы, а как по всем страницам в режиме паука?

Необходимо обновиться на версию 1.1.119 где исправлена работа Raw data results
Используем HTML::LinkExtractor в качестве паука - он автоматически будет переходить по всем ссылкам на указанную глубину
Используя Raw data results для парсинга становится доступным элемент $data - исходный код страницы, откуда с помощью регулярного выражения сохраняем необходимые данные

Kreola · 28 Ноя 2014

Приветствую!

Forbidden сказал(а):
Вот пример как избавиться от кучи ручных замен используя возможности шаблонизатора:

Код:

[% replace = {' ' => '', '!' => '', '+' => '', '-' => ''}; FOREACH item = p1.numbers; FOREACH replace; item.number = item.number | replace(key, value); END; item.number _ "\n"; END; -%]

Вопросик, а можно к такой замене применять регулярки?
к примеру чтоб было
phone.replaceAll("[^\\d]+", ""); Удалить все не числа из строки.

Forbidden · 29 Ноя 2014

Kreola сказал(а):
Вопросик, а можно к такой замене применять регулярки?

Можно, просто phone.replace("[^\d]+", ""), подробнее тут http://www.template-toolkit.ru/Manual/VMethods.html#Virtual_niye_metodiy_dlya_rabotiy_so_skalyarami

Kreola · 1 Дек 2014

Приветствую.
Подскажите как парсить такой сайт? http://www.3tlin.com/show-cv-96329587.html
регулярки не могут воспринимать символы которые превращаются в лигатуры.
Например надо забрать имя. Это первая строка из таблички. И как забирать другие данные.
Я в другом парсере делал через удаление символов (скорее всего не правильный подход), тут хз как.
Спасибо заранее.

Forbidden · 1 Дек 2014

Kreola сказал(а):
регулярки не могут воспринимать символы которые превращаются в лигатуры.

о чем речь? все они прекрасно воспринимают

Kreola · 1 Дек 2014

тут понял, а как остальные строки отдельно позабирать в разные переменные?

Forbidden · 1 Дек 2014

дополнить регулярку нужными захватывающими скобками, и соответствующее число переменных обозначить

Подскажите новичку

Member

Administrator

Administrator

Member

Administrator

Member

A-Parser Enterprise License

Administrator

Member

Administrator

Member

Administrator

Member

Administrator

Member

Administrator

Member

Administrator

Member

Administrator

О нас

Быстрая навигация

Соцсети

Поддержка