Подскажите новичку

  • Автор темы Автор темы Kreola
  • Дата начала Дата начала
Суть не в арабском, Если я пытаюсь сделать по логике, то получается так.
53194d075f0ff933190c98dc8f02cb58.png

1) Формируем формат результата
2) Формируем списки замен.
3) Парсим резуьтат.
На деле же пункты 2 и 3 меняются местами.
Покажите пожалуйста на примере, как это должно выглядеть, либо ткните носом, где почитать про это.
Спасибо.
Вы говорите разобраться с основами, но в документации нет ни слова про нормальный рабочий пример, там только обрывки всяких задач, которые показывают только поверхностно, что умеет парсер, а не как пользоваться в той или иной ситуации.
 
На деле же пункты 2 и 3 меняются местами.
куда меняются? вот порядок обхода запроса http://a-parser.com/wiki/query-results-relation/

там только обрывки всяких задач, которые показывают только поверхностно, что умеет парсер, а не как пользоваться в той или иной ситуации.

какие обрывки? на форуме уже десятки примеров как пользоваться Parse custom, если в арабском не суть то вот очередной пример
R0Vaf.png
 
Вот пример как избавиться от кучи ручных замен используя возможности шаблонизатора:
Код:
[% replace = {'0' => 'a', '1' => 'b', '2' => 'c', '3' => 'e'};
FOREACH item = p1.numbers;
 FOREACH replace;
  item.number = item.number | replace(key, value);
 END;
 item.number _ "\n";
END;
-%]
 
Здравствуйте!
Еще вопросик.
Вот я создал тестовый запрос. Я могу каким-то образом увидеть результат в логе? т.е. чтоб вывелось то что я пытаюсь засунуть в конечный файл.
Спасибо.
2014_10_27_16_14_04.png
 
Да, результат отображается непосредственно в конце лога, т.е. в данном случае результат пустой
 
Приветствую снова.
Помаленьку вникаем) однако возник вопрос, каким образом передавать данные из одного парсера в другой?
к примеру 1-й собирает ссылки и фильтрует их, а второй уже конкретную инфу с ссылок что собрал первый?
a-parser3.png
 
Приветствую снова.
Помаленьку вникаем) однако возник вопрос, каким образом передавать данные из одного парсера в другой?
к примеру 1-й собирает ссылки и фильтрует их, а второй уже конкретную инфу с ссылок что собрал первый?
Посмотреть вложение 138
Никак
 
И снова здравствуйте!
Вопрос:
Имеем 2 регулярных выражения которые собираются в 2 разных массива. Каким образом их объединить в один и почистить?
2014_11_12_15_52_11.png

или будет достаточно указать 1 и тот же массив?
И как дальше чистить мусор?
Если к примеру регулярка забирает не ссылку а ссылку + теги
/animals-and-pets/for-sale/2/">2</a></li><li><a target="_self" href=" (вариант поправить регулярку, это конечно само собой, но все-таки)
Спасибо.
 
или будет достаточно указать 1 и тот же массив?
можно сохранять в один и тот же массив если это подходит под задачу, при этом названия элементов необходимо оставлять одинаковыми

Если к примеру регулярка забирает не ссылку а ссылку + теги
через Results builder, например через замену по регулярному выражению, но зачем если можно сразу без мусора парсить? :)
 
Еще вопрос, подскажите как использую Net:http получить все ссылки на сайт http://a-parser.com/ используя регулярку? я уже сломал всю голову. Получать через LinkExtractor не вариант.
 
Еще вопрос, подскажите как использую Net:http получить все ссылки на сайт http://a-parser.com/ используя регулярку? я уже сломал всю голову. Получать через LinkExtractor не вариант.

аналогично как описано в этом топике http://a-parser.com/threads/1333/ только используя другую регулярку, например
Код:
<a href="([^"]+)"
 
Это я понимаю, но ведь это будет только с этой страницы, а как по всем страницам в режиме паука?
Вернее я понимаю что надо задать маску, как например тут http://a-parser.com/threads/{num:1:999999}/
но как быть где так нельзя сделать? а если есть только начальный урл и возможности моделировать нету. ( теоретически, возможно просто познаний не хватает)
У меня ссылка идет в теге <p onclick="wo('/бла/бла/бла/блаe/3263014/')" class='ar'>
 
Последнее редактирование:
Это я понимаю, но ведь это будет только с этой страницы, а как по всем страницам в режиме паука?

karAW.png


  • Необходимо обновиться на версию 1.1.119 где исправлена работа Raw data results
  • Используем HTML::LinkExtractor HTML::LinkExtractor в качестве паука - он автоматически будет переходить по всем ссылкам на указанную глубину
  • Используя Raw data results для парсинга становится доступным элемент $data - исходный код страницы, откуда с помощью регулярного выражения сохраняем необходимые данные
 
Приветствую!
Вот пример как избавиться от кучи ручных замен используя возможности шаблонизатора:
Код:
[% replace = {' ' => '', '!' => '', '+' => '', '-' => ''};
FOREACH item = p1.numbers;
FOREACH replace;
  item.number = item.number | replace(key, value);
END;
item.number _ "\n";
END;
-%]
Вопросик, а можно к такой замене применять регулярки?
к примеру чтоб было
phone.replaceAll("[^\\d]+", ""); Удалить все не числа из строки.
 
Приветствую.
Подскажите как парсить такой сайт? http://www.3tlin.com/show-cv-96329587.html
регулярки не могут воспринимать символы которые превращаются в лигатуры.
Например надо забрать имя. Это первая строка из таблички. И как забирать другие данные.
Я в другом парсере делал через удаление символов (скорее всего не правильный подход), тут хз как.
Спасибо заранее.
 
тут понял, а как остальные строки отдельно позабирать в разные переменные?
 
дополнить регулярку нужными захватывающими скобками, и соответствующее число переменных обозначить
 
Назад
Верх