1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг с film.ru

Тема в разделе "Делимся опытом", создана пользователем Badboy, 3 сен 2013.

  1. Badboy

    Badboy A-Parser Pro License
    A-Parser Pro

    Регистрация:
    1 апр 2013
    Сообщения:
    11
    Симпатии:
    0
    Как сделать парсер, если в коде страницы идут строчки, такого вида
    Код:
    <li><a title="А мама лучше (2009)" href="/movies/mama-luchshe">А мама лучше (2009)</a></li>
    <li><a title="А мне так нравится /I Like It Like That/ (1994)" href="/movies/mne-tak-nravitsya">А мне так нравится /I Like It Like That/ (1994)</a></li>
    <li><a title="А потом оглянулся… (1980)" href="/movies/potom-oglyanulsya">А потом оглянулся… (1980)</a></li>
    <li><a title="А поутру они проснулись… (2003)" href="/movies/poutru-oni-prosnulis">А поутру они проснулись… (2003)</a></li>
    Везде стоит разный урл, нужно спарсить только название и всё, пробовал Net::HTTP + Regex
    используя <li><a title="(.*?)" href="
    парсится тупо весь код страницы, но никак то что мне нужно.Нужны тупо тайтлы или то что между тегами <a>Название</a>
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    покажи целиком скрин своих настроек задания

    + анкоры можно спарсить через HTML::LinkExtractor без использования регулярок
     
  3. Badboy

    Badboy A-Parser Pro License
    A-Parser Pro

    Регистрация:
    1 апр 2013
    Сообщения:
    11
    Симпатии:
    0
    Вообщем делал вот так:
    [​IMG]

    Потом вот так:
    [​IMG]

    так и не понял как нужно парсить, выпарсивает тупо всю страницу, а никак то что в тэгах.
     
    #3 Badboy, 3 сен 2013
    Последнее редактирование модератором: 18 окт 2014
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    ну если просто тыкать разные кнопки и пихать регекс во все поля то врятли что то выйдет

    вот подробный пример использования Net::HTTP + Parse custom result: http://a-parser.com/wiki/customresult/
     
  5. Badboy

    Badboy A-Parser Pro License
    A-Parser Pro

    Регистрация:
    1 апр 2013
    Сообщения:
    11
    Симпатии:
    0
    Спасибо, что показал где расписано, пол форума перелопатил, просто устал искать зацепки, сделал есть маленькая погрешность, ну фиг с ней.
    Вот кому нужно, парсер film.ru
    Как делал настройки:
    [​IMG]

    Код:
    Код:
    eyJwcmVzZXQiOiJQYXJzZXJfZmlsbS5ydSIsInZhbHVlIjp7InBhcnNlcnMiOltb
    Ik5ldDo6SFRUUCIsImRlZmF1bHQiLHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJl
    c3VsdCI6ImRhdGEiLCJyZWdleCI6IjxkaXYgY2xhc3M9XCJhLXpcIj4oLio/KTwv
    ZGl2PiIsInJlZ2V4VHlwZSI6IiIsInJlc3VsdFR5cGUiOiJmbGF0IiwiYXJyYXlO
    YW1lIjoidG90YWxjb3VudCIsInJlc3VsdHMiOlsidG90YWxjb3VudCJdfSx7InR5
    cGUiOiJjdXN0b21SZXN1bHQiLCJyZXN1bHQiOiJkYXRhIiwicmVnZXgiOiI8YSB0
    aXRsZT1cIiguKj8pXCIgaHJlZj1cIi4qP1wiPi4qPzwvYT4iLCJyZWdleFR5cGUi
    OiJnIiwicmVzdWx0VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoic2VycCIsInJl
    c3VsdHMiOlsiYW5jaG9yIl19LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3Jt
    YXRyZXN1bHQiLCJ2YWx1ZSI6InNlcnBbe2FuY2hvcn1cXG5dIn1dXSwicmVzdWx0
    c0Zvcm1hdCI6InBhcnNlcjEoe3ByZXNldH0pIiwicmVzdWx0c1NhdmVUbyI6ImZp
    bGUiLCJyZXN1bHRzRmlsZU5hbWUiOiJ7ZGF0ZX1fe3RpbWV9LnR4dCIsInJlc3Vs
    dHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0Ijoie3F1ZXJ5fSIsInVuaXF1ZVF1
    ZXJpZXMiOmZhbHNlLCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9y
    ZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBl
    bmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwi
    Y29uZmlnT3ZlcnJpZGVzIjpbXX19
     
    #5 Badboy, 3 сен 2013
    Последнее редактирование модератором: 18 окт 2014
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    Перенес в отдельную тему


    в чем погрешность?
     
  7. Badboy

    Badboy A-Parser Pro License
    A-Parser Pro

    Регистрация:
    1 апр 2013
    Сообщения:
    11
    Симпатии:
    0
    Спарсивается вместе с анкорами алфавит, который находится в этом диве.
     
  8. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    можно ужесточить регулярку:
    Код:
    <a title="([^"]+)" href="/movies/[^/"]+"
     
  9. Badboy

    Badboy A-Parser Pro License
    A-Parser Pro

    Регистрация:
    1 апр 2013
    Сообщения:
    11
    Симпатии:
    0
    Переделал, теперь парсит в идеале то что нужно! Спасибо For!
    Код кому пригодится:
    Код:
    eyJwcmVzZXQiOiJQYXJzZXJfZmlsbS5ydSIsInZhbHVlIjp7InBhcnNlcnMiOltb
    Ik5ldDo6SFRUUCIsImRlZmF1bHQiLHsidHlwZSI6ImN1c3RvbVJlc3VsdCIsInJl
    c3VsdCI6ImRhdGEiLCJyZWdleCI6IjxkaXYgY2xhc3M9XCJhLXpcIj48ZGl2IGNs
    YXNzPVwidGl0bGVcIj4uKj88L2Rpdj4oLio/KTwvZGl2PiIsInJlZ2V4VHlwZSI6
    IiIsInJlc3VsdFR5cGUiOiJmbGF0IiwiYXJyYXlOYW1lIjoidG90YWxjb3VudCIs
    InJlc3VsdHMiOlsidG90YWxjb3VudCJdfSx7InR5cGUiOiJjdXN0b21SZXN1bHQi
    LCJyZXN1bHQiOiJkYXRhIiwicmVnZXgiOiI8YSB0aXRsZT1cIihbXlwiXSspXCIg
    aHJlZj1cIi9tb3ZpZXMvW14vXCJdK1wiPi4qPzwvYT4iLCJyZWdleFR5cGUiOiJn
    IiwicmVzdWx0VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoic2VycCIsInJlc3Vs
    dHMiOlsiYW5jaG9yIl19LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJmb3JtYXRy
    ZXN1bHQiLCJ2YWx1ZSI6InNlcnBbe2FuY2hvcn1cXG5dIn1dXSwicmVzdWx0c0Zv
    cm1hdCI6InBhcnNlcjEoe3ByZXNldH0pIiwicmVzdWx0c1NhdmVUbyI6ImZpbGUi
    LCJyZXN1bHRzRmlsZU5hbWUiOiJ7ZGF0ZX1fe3RpbWV9LnR4dCIsInJlc3VsdHNV
    bmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0Ijoie3F1ZXJ5fSIsInVuaXF1ZVF1ZXJp
    ZXMiOmZhbHNlLCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9w
    dGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQi
    OiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwiY29u
    ZmlnT3ZlcnJpZGVzIjpbXX19
    Forbidden,а где есть расписаны какие регулярки что означают, чтобы в дальнейшем не задавал я такого рода вопросов, а сразу вылаживал рабочие парсеры.
     
  10. Badboy

    Badboy A-Parser Pro License
    A-Parser Pro

    Регистрация:
    1 апр 2013
    Сообщения:
    11
    Симпатии:
    0
    Ещё есть вопрос по film.ru
    Как мне задать условие, чтобы парсер спарсивал только линки в которых есть папки типа /movies/a-z/ что то никак у меня не выходит организовать это в настройках парсера.
     
  11. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    Это PCRE регулярки, документация например тут: pcre.ru


    Добавляем фильтр:
    [​IMG]
     
    #11 Forbidden, 6 сен 2013
    Последнее редактирование модератором: 18 окт 2014

Поделиться этой страницей