Парсинг с film.ru

  • Автор темы Автор темы Badboy
  • Дата начала Дата начала

Badboy

A-Parser Pro License
A-Parser Pro
Как сделать парсер, если в коде страницы идут строчки, такого вида
Код:
<li><a title="А мама лучше (2009)" href="/movies/mama-luchshe">А мама лучше (2009)</a></li>
<li><a title="А мне так нравится /I Like It Like That/ (1994)" href="/movies/mne-tak-nravitsya">А мне так нравится /I Like It Like That/ (1994)</a></li>
<li><a title="А потом оглянулся… (1980)" href="/movies/potom-oglyanulsya">А потом оглянулся… (1980)</a></li>
<li><a title="А поутру они проснулись… (2003)" href="/movies/poutru-oni-prosnulis">А поутру они проснулись… (2003)</a></li>

Везде стоит разный урл, нужно спарсить только название и всё, пробовал Net::HTTP + Regex
используя <li><a title="(.*?)" href="
парсится тупо весь код страницы, но никак то что мне нужно.Нужны тупо тайтлы или то что между тегами <a>Название</a>
 
покажи целиком скрин своих настроек задания

+ анкоры можно спарсить через HTML::LinkExtractor без использования регулярок
 
Вообщем делал вот так:
JniAL.png


Потом вот так:
BYaoG.png


так и не понял как нужно парсить, выпарсивает тупо всю страницу, а никак то что в тэгах.
 
Последнее редактирование модератором:
ну если просто тыкать разные кнопки и пихать регекс во все поля то врятли что то выйдет

вот подробный пример использования Net::HTTP + Parse custom result: http://a-parser.com/wiki/customresult/
 
Спасибо, что показал где расписано, пол форума перелопатил, просто устал искать зацепки, сделал есть маленькая погрешность, ну фиг с ней.
Вот кому нужно, парсер film.ru
Как делал настройки:
qeCZH.png


Код:
Код:
eyJwcmVzZXQiOiJQYXJzZXJfZmlsbS5ydSIsInZhbHVlIjp7InBhcnNlcnMiOltb
Ik5ldDo6SFRUUCIsImRlZmF1bHQiLHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJl
c3VsdCI6ImRhdGEiLCJyZWdleCI6IjxkaXYgY2xhc3M9XCJhLXpcIj4oLio/KTwv
ZGl2PiIsInJlZ2V4VHlwZSI6IiIsInJlc3VsdFR5cGUiOiJmbGF0IiwiYXJyYXlO
YW1lIjoidG90YWxjb3VudCIsInJlc3VsdHMiOlsidG90YWxjb3VudCJdfSx7InR5
cGUiOiJjdXN0b21SZXN1bHQiLCJyZXN1bHQiOiJkYXRhIiwicmVnZXgiOiI8YSB0
aXRsZT1cIiguKj8pXCIgaHJlZj1cIi4qP1wiPi4qPzwvYT4iLCJyZWdleFR5cGUi
OiJnIiwicmVzdWx0VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoic2VycCIsInJl
c3VsdHMiOlsiYW5jaG9yIl19LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3Jt
YXRyZXN1bHQiLCJ2YWx1ZSI6InNlcnBbe2FuY2hvcn1cXG5dIn1dXSwicmVzdWx0
c0Zvcm1hdCI6InBhcnNlcjEoe3ByZXNldH0pIiwicmVzdWx0c1NhdmVUbyI6ImZp
bGUiLCJyZXN1bHRzRmlsZU5hbWUiOiJ7ZGF0ZX1fe3RpbWV9LnR4dCIsInJlc3Vs
dHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0Ijoie3F1ZXJ5fSIsInVuaXF1ZVF1
ZXJpZXMiOmZhbHNlLCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9y
ZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBl
bmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwi
Y29uZmlnT3ZlcnJpZGVzIjpbXX19
 
Последнее редактирование модератором:
Спарсивается вместе с анкорами алфавит, который находится в этом диве.
 
Переделал, теперь парсит в идеале то что нужно! Спасибо For!
Код кому пригодится:
Код:
eyJwcmVzZXQiOiJQYXJzZXJfZmlsbS5ydSIsInZhbHVlIjp7InBhcnNlcnMiOltb
Ik5ldDo6SFRUUCIsImRlZmF1bHQiLHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJl
c3VsdCI6ImRhdGEiLCJyZWdleCI6IjxkaXYgY2xhc3M9XCJhLXpcIj48ZGl2IGNs
YXNzPVwidGl0bGVcIj4uKj88L2Rpdj4oLio/KTwvZGl2PiIsInJlZ2V4VHlwZSI6
IiIsInJlc3VsdFR5cGUiOiJmbGF0IiwiYXJyYXlOYW1lIjoidG90YWxjb3VudCIs
InJlc3VsdHMiOlsidG90YWxjb3VudCJdfSx7InR5cGUiOiJjdXN0b21SZXN1bHQi
LCJyZXN1bHQiOiJkYXRhIiwicmVnZXgiOiI8YSB0aXRsZT1cIihbXlwiXSspXCIg
aHJlZj1cIi9tb3ZpZXMvW14vXCJdK1wiPi4qPzwvYT4iLCJyZWdleFR5cGUiOiJn
IiwicmVzdWx0VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoic2VycCIsInJlc3Vs
dHMiOlsiYW5jaG9yIl19LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3JtYXRy
ZXN1bHQiLCJ2YWx1ZSI6InNlcnBbe2FuY2hvcn1cXG5dIn1dXSwicmVzdWx0c0Zv
cm1hdCI6InBhcnNlcjEoe3ByZXNldH0pIiwicmVzdWx0c1NhdmVUbyI6ImZpbGUi
LCJyZXN1bHRzRmlsZU5hbWUiOiJ7ZGF0ZX1fe3RpbWV9LnR4dCIsInJlc3VsdHNV
bmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0Ijoie3F1ZXJ5fSIsInVuaXF1ZVF1ZXJp
ZXMiOmZhbHNlLCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9w
dGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQi
OiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwiY29u
ZmlnT3ZlcnJpZGVzIjpbXX19

Forbidden,а где есть расписаны какие регулярки что означают, чтобы в дальнейшем не задавал я такого рода вопросов, а сразу вылаживал рабочие парсеры.
 
Ещё есть вопрос по film.ru
Как мне задать условие, чтобы парсер спарсивал только линки в которых есть папки типа /movies/a-z/ что то никак у меня не выходит организовать это в настройках парсера.
 
Forbidden,а где есть расписаны какие регулярки что означают, чтобы в дальнейшем не задавал я такого рода вопросов, а сразу вылаживал рабочие парсеры.

Это PCRE регулярки, документация например тут: pcre.ru


Ещё есть вопрос по film.ru Как мне задать условие, чтобы парсер спарсивал только линки в которых есть папки типа /movies/a-z/ что то никак у меня не выходит организовать это в настройках парсера.

Добавляем фильтр:
ZTOUc.png
 
Последнее редактирование модератором:
Назад
Верх