формат результата

  • Автор темы Автор темы heart
  • Дата начала Дата начала

heart

A-Parser Enterprise License
A-Parser Enterprise
есть задача спарсить некоторые внутренние ссылки на страницах фейсбук. Эти ссылки 2-х типов (используется 2 регулярки для парсинга этих ссылок). Вопрос как сделать чтобы ссылки одного типа сохранялись в одном столбце, а ссылки другого типа сохранялись в другом столбце. Бывают ситуации когда на странице присутствуют ссылки только одного типа. Я пытаюсь делать как на скрине, но результат сохраняется криво, ссылки 2-х типов перемешиваются и некоторые результаты сохраняются в 3-4 столбцы..
upload_2014-10-30_3-9-8.png
 
не совсем понятно о каких столбцах речь, пример бы
 
на странице есть html блоки со ссылками внутри
1 тип (пример): <div class="_6a _6b"><strong><a href="http://www.facebook.com/pages/A-H-Cellular/109751795719557" title="A &amp; H Cellular">A &amp; H Cellular</a></strong><div class="fsm fwn fcg">Company</div></div>

2 тип (пример): <li class="fbDirectoryBoxColumnItem"><a href="https://www.facebook.com/directory/pages/A-1-139440">A - A LA VOZ DEL CARNAVAL, TODO EL MUNDO SE LEVANTA</a></li>

бывают ситуации когда на страницах блоки с нужными ссылками только или 1-го типа, или 2-го

мне нужно получить exel файл в котором первый столбец будут занимать url адреса с блоков 1-го типа, а во втором столбце того же файла будут находиться url адреса с блоков 2-го типа.

я пытался делать как на скрине выше, url парсятся, но результат сохраняется не так.
 
0JigL.png


Формат результата:
Код:
[%
  max = links1.size;
  max = links2.size IF max < links2.size;
  max = max - 1;
  FOREACH i = [0..max];
    '"' _ links1.$i.link _ '", "' _ links2.$i.link _ '"' _ "\n";
  END;
%]

Вкратце: определяем каких ссылок получилось больше и выводим максимальное число строк
 
Назад
Верх