Суть не в арабском, Если я пытаюсь сделать по логике, то получается так. 1) Формируем формат результата 2) Формируем списки замен. 3) Парсим резуьтат. На деле же пункты 2 и 3 меняются местами. Покажите пожалуйста на примере, как это должно выглядеть, либо ткните носом, где почитать про это. Спасибо. Вы говорите разобраться с основами, но в документации нет ни слова про нормальный рабочий пример, там только обрывки всяких задач, которые показывают только поверхностно, что умеет парсер, а не как пользоваться в той или иной ситуации.
куда меняются? вот порядок обхода запроса http://a-parser.com/wiki/query-results-relation/ какие обрывки? на форуме уже десятки примеров как пользоваться Parse custom, если в арабском не суть то вот очередной пример
Вот пример как избавиться от кучи ручных замен используя возможности шаблонизатора: Код: [% replace = {'0' => 'a', '1' => 'b', '2' => 'c', '3' => 'e'}; FOREACH item = p1.numbers; FOREACH replace; item.number = item.number | replace(key, value); END; item.number _ "\n"; END; -%]
Здравствуйте! Еще вопросик. Вот я создал тестовый запрос. Я могу каким-то образом увидеть результат в логе? т.е. чтоб вывелось то что я пытаюсь засунуть в конечный файл. Спасибо.
Приветствую снова. Помаленьку вникаем) однако возник вопрос, каким образом передавать данные из одного парсера в другой? к примеру 1-й собирает ссылки и фильтрует их, а второй уже конкретную инфу с ссылок что собрал первый?
И снова здравствуйте! Вопрос: Имеем 2 регулярных выражения которые собираются в 2 разных массива. Каким образом их объединить в один и почистить? или будет достаточно указать 1 и тот же массив? И как дальше чистить мусор? Если к примеру регулярка забирает не ссылку а ссылку + теги /animals-and-pets/for-sale/2/">2</a></li><li><a target="_self" href=" (вариант поправить регулярку, это конечно само собой, но все-таки) Спасибо.
можно сохранять в один и тот же массив если это подходит под задачу, при этом названия элементов необходимо оставлять одинаковыми через Results builder, например через замену по регулярному выражению, но зачем если можно сразу без мусора парсить?
Еще вопрос, подскажите как использую Net:http получить все ссылки на сайт http://a-parser.com/ используя регулярку? я уже сломал всю голову. Получать через LinkExtractor не вариант.
аналогично как описано в этом топике http://a-parser.com/threads/1333/ только используя другую регулярку, например Код: <a href="([^"]+)"
Это я понимаю, но ведь это будет только с этой страницы, а как по всем страницам в режиме паука? Вернее я понимаю что надо задать маску, как например тут http://a-parser.com/threads/{num:1:999999}/ но как быть где так нельзя сделать? а если есть только начальный урл и возможности моделировать нету. ( теоретически, возможно просто познаний не хватает) У меня ссылка идет в теге <p onclick="wo('/бла/бла/бла/блаe/3263014/')" class='ar'>
Необходимо обновиться на версию 1.1.119 где исправлена работа Raw data results Используем HTML::LinkExtractor в качестве паука - он автоматически будет переходить по всем ссылкам на указанную глубину Используя Raw data results для парсинга становится доступным элемент $data - исходный код страницы, откуда с помощью регулярного выражения сохраняем необходимые данные
Приветствую! Вопросик, а можно к такой замене применять регулярки? к примеру чтоб было phone.replaceAll("[^\\d]+", ""); Удалить все не числа из строки.
Можно, просто phone.replace("[^\d]+", ""), подробнее тут http://www.template-toolkit.ru/Manual/VMethods.html#Virtual_niye_metodiy_dlya_rabotiy_so_skalyarami
Приветствую. Подскажите как парсить такой сайт? http://www.3tlin.com/show-cv-96329587.html регулярки не могут воспринимать символы которые превращаются в лигатуры. Например надо забрать имя. Это первая строка из таблички. И как забирать другие данные. Я в другом парсере делал через удаление символов (скорее всего не правильный подход), тут хз как. Спасибо заранее.