Как сделать парсер, если в коде страницы идут строчки, такого вида Код: <li><a title="А мама лучше (2009)" href="/movies/mama-luchshe">А мама лучше (2009)</a></li> <li><a title="А мне так нравится /I Like It Like That/ (1994)" href="/movies/mne-tak-nravitsya">А мне так нравится /I Like It Like That/ (1994)</a></li> <li><a title="А потом оглянулся… (1980)" href="/movies/potom-oglyanulsya">А потом оглянулся… (1980)</a></li> <li><a title="А поутру они проснулись… (2003)" href="/movies/poutru-oni-prosnulis">А поутру они проснулись… (2003)</a></li> Везде стоит разный урл, нужно спарсить только название и всё, пробовал Net::HTTP + Regex используя <li><a title="(.*?)" href=" парсится тупо весь код страницы, но никак то что мне нужно.Нужны тупо тайтлы или то что между тегами <a>Название</a>
покажи целиком скрин своих настроек задания + анкоры можно спарсить через HTML::LinkExtractor без использования регулярок
Вообщем делал вот так: Потом вот так: так и не понял как нужно парсить, выпарсивает тупо всю страницу, а никак то что в тэгах.
ну если просто тыкать разные кнопки и пихать регекс во все поля то врятли что то выйдет вот подробный пример использования Net::HTTP + Parse custom result: http://a-parser.com/wiki/customresult/
Спасибо, что показал где расписано, пол форума перелопатил, просто устал искать зацепки, сделал есть маленькая погрешность, ну фиг с ней. Вот кому нужно, парсер film.ru Как делал настройки: Код: Код: eyJwcmVzZXQiOiJQYXJzZXJfZmlsbS5ydSIsInZhbHVlIjp7InBhcnNlcnMiOltb Ik5ldDo6SFRUUCIsImRlZmF1bHQiLHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJl c3VsdCI6ImRhdGEiLCJyZWdleCI6IjxkaXYgY2xhc3M9XCJhLXpcIj4oLio/KTwv ZGl2PiIsInJlZ2V4VHlwZSI6IiIsInJlc3VsdFR5cGUiOiJmbGF0IiwiYXJyYXlO YW1lIjoidG90YWxjb3VudCIsInJlc3VsdHMiOlsidG90YWxjb3VudCJdfSx7InR5 cGUiOiJjdXN0b21SZXN1bHQiLCJyZXN1bHQiOiJkYXRhIiwicmVnZXgiOiI8YSB0 aXRsZT1cIiguKj8pXCIgaHJlZj1cIi4qP1wiPi4qPzwvYT4iLCJyZWdleFR5cGUi OiJnIiwicmVzdWx0VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoic2VycCIsInJl c3VsdHMiOlsiYW5jaG9yIl19LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3Jt YXRyZXN1bHQiLCJ2YWx1ZSI6InNlcnBbe2FuY2hvcn1cXG5dIn1dXSwicmVzdWx0 c0Zvcm1hdCI6InBhcnNlcjEoe3ByZXNldH0pIiwicmVzdWx0c1NhdmVUbyI6ImZp bGUiLCJyZXN1bHRzRmlsZU5hbWUiOiJ7ZGF0ZX1fe3RpbWV9LnR4dCIsInJlc3Vs dHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0Ijoie3F1ZXJ5fSIsInVuaXF1ZVF1 ZXJpZXMiOmZhbHNlLCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9y ZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBl bmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwi Y29uZmlnT3ZlcnJpZGVzIjpbXX19
Переделал, теперь парсит в идеале то что нужно! Спасибо For! Код кому пригодится: Код: eyJwcmVzZXQiOiJQYXJzZXJfZmlsbS5ydSIsInZhbHVlIjp7InBhcnNlcnMiOltb Ik5ldDo6SFRUUCIsImRlZmF1bHQiLHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJl c3VsdCI6ImRhdGEiLCJyZWdleCI6IjxkaXYgY2xhc3M9XCJhLXpcIj48ZGl2IGNs YXNzPVwidGl0bGVcIj4uKj88L2Rpdj4oLio/KTwvZGl2PiIsInJlZ2V4VHlwZSI6 IiIsInJlc3VsdFR5cGUiOiJmbGF0IiwiYXJyYXlOYW1lIjoidG90YWxjb3VudCIs InJlc3VsdHMiOlsidG90YWxjb3VudCJdfSx7InR5cGUiOiJjdXN0b21SZXN1bHQi LCJyZXN1bHQiOiJkYXRhIiwicmVnZXgiOiI8YSB0aXRsZT1cIihbXlwiXSspXCIg aHJlZj1cIi9tb3ZpZXMvW14vXCJdK1wiPi4qPzwvYT4iLCJyZWdleFR5cGUiOiJn IiwicmVzdWx0VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoic2VycCIsInJlc3Vs dHMiOlsiYW5jaG9yIl19LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3JtYXRy ZXN1bHQiLCJ2YWx1ZSI6InNlcnBbe2FuY2hvcn1cXG5dIn1dXSwicmVzdWx0c0Zv cm1hdCI6InBhcnNlcjEoe3ByZXNldH0pIiwicmVzdWx0c1NhdmVUbyI6ImZpbGUi LCJyZXN1bHRzRmlsZU5hbWUiOiJ7ZGF0ZX1fe3RpbWV9LnR4dCIsInJlc3VsdHNV bmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0Ijoie3F1ZXJ5fSIsInVuaXF1ZVF1ZXJp ZXMiOmZhbHNlLCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9w dGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQi OiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwiY29u ZmlnT3ZlcnJpZGVzIjpbXX19 Forbidden,а где есть расписаны какие регулярки что означают, чтобы в дальнейшем не задавал я такого рода вопросов, а сразу вылаживал рабочие парсеры.
Ещё есть вопрос по film.ru Как мне задать условие, чтобы парсер спарсивал только линки в которых есть папки типа /movies/a-z/ что то никак у меня не выходит организовать это в настройках парсера.