1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2200+ и мы растем!
    Скрыть объявление

Пресет Парсинг imdb 1.0

Парсинг данных из imdb.com

  1. Валерий

    Валерий A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 сен 2014
    Сообщения:
    8
    Симпатии:
    0
    Нужно спарсить все ссылки на фильмы/сериалы и т.д.
    Все имеют вид http://www.imdb.com/title/tt*******/
    Просьба помочь )
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    3.531
    Симпатии:
    1.880
    Если собрать только ссылки, то здесь все просто: все они формата http://www.imdb.com/title/tt*******/, где ******* - это цифры. Поэтому достаточно проверить ответ сервера по каждой ссылке, подставляя туда поочередно все возможные цифры. Для этого воспользуемся макросом {num:0:5000000}. Число 5000000 выбрано эксперементально, все ссылки что выше - не существуют. Проверка будет осуществляться через Net:HTTP, где для увеличения скорости включим опцию Read only headers, чтобы не загружать саму страницу.
    [​IMG]
    Код:
    eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY4Mi8iLCJ2
    YWx1ZSI6eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY4
    Mi8iLCJwYXJzZXJzIjpbWyJOZXQ6OkhUVFAiLCJkZWZhdWx0Iix7InR5cGUiOiJm
    aWx0ZXIiLCJyZXN1bHQiOiJjb2RlIiwiZmlsdGVyVHlwZSI6Ij09IiwidmFsdWUi
    OiIyMDAiLCJvcHRpb24iOiJzZW5zIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6
    ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJHF1ZXJ5XFxuIn0seyJ0eXBlIjoib3Zl
    cnJpZGUiLCJpZCI6Im9ubHloZWFkZXJzIiwidmFsdWUiOnRydWV9XV0sInJlc3Vs
    dHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJy
    ZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0KCkudHh0IiwiYWRkaXRp
    b25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZvcm1h
    dCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRR
    dWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpm
    YWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlfSwicmVzdWx0
    c09wdGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVw
    VW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5k
    IjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1
    bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfX0=
    В результате получим файл со всеми рабочими ссылками.

    Если же кроме ссылок необходимо парсить и другие данные, тогда последовательность действий аналогична, но опцию Read only headers не включаем. И с помощью функции Parse custom result и регулярных выражений парсим из контента страницы необходимые данные, которые потом выводим в файл. В примере парсятся название, год, рейтинг и кол-во пользователей, отдавших свой голос.
    [​IMG]
    Код:
    eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY4Mi8iLCJ2
    YWx1ZSI6eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY4
    Mi8iLCJwYXJzZXJzIjpbWyJOZXQ6OkhUVFAiLCJkZWZhdWx0Iix7InR5cGUiOiJm
    aWx0ZXIiLCJyZXN1bHQiOiJjb2RlIiwiZmlsdGVyVHlwZSI6Ij09IiwidmFsdWUi
    OiIyMDAiLCJvcHRpb24iOiJzZW5zIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6
    ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJHF1ZXJ5OyRuYW1lOyR5ZWFyOyRyYXRp
    bmc7JHVzZXJzXFxuIn0seyJ0eXBlIjoiY3VzdG9tUmVzdWx0IiwicmVzdWx0Ijoi
    ZGF0YSIsInJlZ2V4IjoiaXRlbXByb3A9XCJuYW1lXCI+KC4rPyk8Lis/PihcXGQq
    Pyk8XFwvYT4iLCJyZWdleFR5cGUiOiJzIiwicmVzdWx0VHlwZSI6ImZsYXQiLCJh
    cnJheU5hbWUiOiIiLCJyZXN1bHRzIjpbIm5hbWUiLCJ5ZWFyIl19LHsidHlwZSI6
    ImN1c3RvbVJlc3VsdCIsInJlc3VsdCI6ImRhdGEiLCJyZWdleCI6InJhdGluZ1Zh
    bHVlXCI+KFtePD5dKik8IiwicmVnZXhUeXBlIjoiaSIsInJlc3VsdFR5cGUiOiJm
    bGF0IiwiYXJyYXlOYW1lIjoiIiwicmVzdWx0cyI6WyJyYXRpbmciXX0seyJ0eXBl
    IjoiY3VzdG9tUmVzdWx0IiwicmVzdWx0IjoiZGF0YSIsInJlZ2V4IjoicmF0aW5n
    Q291bnRcIj4oW148Pl0qKTwiLCJyZWdleFR5cGUiOiJpIiwicmVzdWx0VHlwZSI6
    ImZsYXQiLCJhcnJheU5hbWUiOiIiLCJyZXN1bHRzIjpbInVzZXJzIl19XV0sInJl
    c3VsdHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUi
    LCJyZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0KCkudHh0IiwiYWRk
    aXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZv
    cm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWls
    ZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxz
    IjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlfSwicmVz
    dWx0c09wdGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJr
    ZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVw
    ZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJy
    ZXN1bHRzQnVpbGRlcnMiOlt7InNvdXJjZSI6WzAsInJhdGluZyJdLCJ0eXBlIjoi
    c3RyaW5nUmVwbGFjZSIsInNlYXJjaCI6Im5vbmUiLCJyZXBsYWNlIjoibm8gcmF0
    aW5nIiwidG8iOiJyYXRpbmcifSx7InNvdXJjZSI6WzAsInVzZXJzIl0sInR5cGUi
    OiJzdHJpbmdSZXBsYWNlIiwic2VhcmNoIjoibm9uZSIsInJlcGxhY2UiOiItIiwi
    dG8iOiJ1c2VycyJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpbXX19
    В результате получаем файл со всеми рабочими ссылками и нужной информацией.

    P.S. Если не нужны дополнительные данные, то опция Read only headers, а также отсутствие дополнительных действий в виде парсинга через регулярные выражения, в данном примере дает прирост в скорости около 6 раз.
     
    18kotov и limoshkaa нравится это.
  3. CPUTER

    CPUTER A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    1 апр 2015
    Сообщения:
    3
    Симпатии:
    15

Поделиться этой страницей