1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 1100+ и мы растем!
    Скрыть объявление

Пресет Как парсить Яндекс.Новости? 1.0

Пресеты для парсинга Яндекс.Новостей и их подсказок

  1. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    Собственно сам вопрос в названии темы. Вот парсинг гугл-новостей есть прямо в парсере, а как парсить яндекс новости?
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.846
    Симпатии:
    1.672
    Варианта два:
    1. Создать задачу в разделе Задачи http://a-parser.com/forum/issues/
    2. Сделать кастомный парсер самостоятельно
    Второй вариант решается довольно просто:
    [​IMG]
    • В качестве запросов нужно подавать ключевые слова
    • Параметры поиска можно регулировать, подставляя нужные значения параметров в Query format, аналогично адресной строке в браузере
    • В примере регулярное выражение парсит также и сниппеты, но в результат они не выводятся. При желании вы можете вывести их
    • Также в примере парсятся первые 5 страниц. Изменить это кол-во можно в параметре Limit в Next page RegEx
    • Для обхода каптчи используется функция Check content
    • Теги <strong> специально не убраны, чтобы можно было дополнительно парсить выделенные слова. Для того, чтобы их убрать, нужно воспользовать Конструктором результатов
    Код:
    eyJwcmVzZXQiOiJZYS5cdTA0MWRcdTA0M2VcdTA0MzJcdTA0M2VcdTA0NDFcdTA0
    NDJcdTA0MzgiLCJ2YWx1ZSI6eyJwcmVzZXQiOiJZYS5cdTA0MWRcdTA0M2VcdTA0
    MzJcdTA0M2VcdTA0NDFcdTA0NDJcdTA0MzgiLCJwYXJzZXJzIjpbWyJOZXQ6OkhU
    VFAiLCJkZWZhdWx0Iix7InR5cGUiOiJvdmVycmlkZSIsImlkIjoiZ29vZENvZGUi
    LCJ2YWx1ZSI6WzIwMF19LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJxdWVyeWZv
    cm1hdCIsInZhbHVlIjoiaHR0cHM6Ly9uZXdzLnlhbmRleC5ydS95YW5kc2VhcmNo
    P3JwdD1ubmV3czImdGV4dD0kcXVlcnkifSx7InR5cGUiOiJjdXN0b21SZXN1bHQi
    LCJyZXN1bHQiOlsicGFnZXMiLCJkYXRhIl0sInJlZ2V4IjoiPGRpdiBjbGFzcz1c
    ImRvY3VtZW50X19wcm92aWRlci1uYW1lXCI+KC4rPyk8XFwvZGl2Pi4rPzxkaXYg
    Y2xhc3M9XCJkb2N1bWVudF9fdGltZVwiPiguKz8pPFxcL2Rpdj4uKz88ZGl2IGNs
    YXNzPVwiZG9jdW1lbnRfX3RpdGxlXCI+PGEuKz9ocmVmPVwiKC4rPylcIltePl0q
    PiguKz8pPFxcL2E+Lis/PGRpdiBjbGFzcz1cImRvY3VtZW50X19zbmlwcGV0XCI+
    KC4rPyk8XFwvZGl2PiIsInJlZ2V4VHlwZSI6InNnIiwicmVzdWx0VHlwZSI6ImFy
    cmF5IiwiYXJyYXlOYW1lIjoic2VycCIsInJlc3VsdHMiOlsicHJvdmlkZXIiLCJ0
    aW1lIiwibGluayIsImFuY2hvciIsInNuaXBwZXQiXX0seyJ0eXBlIjoib3ZlcnJp
    ZGUiLCJpZCI6ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJHNlcnAuZm9ybWF0KCck
    dGltZSwgJHByb3ZpZGVyOiAkYW5jaG9yICgkbGluaylcXG4nKSJ9LHsidHlwZSI6
    Im9wdGlvbnMiLCJpZCI6ImNoZWNrTmV4dFBhZ2UiLCJ2YWx1ZSI6ImhyZWY9XCIo
    W15cIl0rKVwiW14+XSo+PHNwYW4gY2xhc3M9XCJidXR0b25fX3RleHRcIj5cdTA0
    MjFcdTA0M2JcdTA0MzVcdTA0MzRcdTA0NDNcdTA0NGVcdTA0NDlcdTA0MzBcdTA0
    NGYiLCJhZGRpdGlvbmFsIjp7ImNoZWNrTmV4dFBhZ2VMaW1pdCI6IjQifX0seyJ0
    eXBlIjoib3B0aW9ucyIsImlkIjoiY2hlY2tDb250ZW50IiwidmFsdWUiOiI8aDEg
    Y2xhc3M9XCJ0aXRsZVwiPlx1MDQzZVx1MDQzOS4uLjwvaDE+IiwiYWRkaXRpb25h
    bCI6eyJjaGVja0NvbnRlbnRNYXRjaFR5cGUiOjB9fV1dLCJyZXN1bHRzRm9ybWF0
    IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0c0Zp
    bGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9uYWxGb3Jt
    YXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVlcnlGb3JtYXQiOlsiJHF1
    ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmllcyI6
    ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2UsInF1
    ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZSwicXVlcnlCdWlsZGVyc09u
    QWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6
    ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlv
    bnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIi
    LCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwiY29uZmln
    T3ZlcnJpZGVzIjpbXSwicnVuVGFza09uQ29tcGxldGUiOm51bGwsInVzZVJlc3Vs
    dHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFsc2UsInJ1blRhc2tPbkNvbXBsZXRlQ29u
    ZmlnIjoiZGVmYXVsdCIsInRvb2xzSlMiOiIifX0=

    И вдобавок еще парсер подсказок Яндекс Новостей:
    [​IMG]
    Код:
    eyJwcmVzZXQiOiJZYS5cdTA0MWRcdTA0M2VcdTA0MzJcdTA0M2VcdTA0NDFcdTA0
    NDJcdTA0MzggLSBzdWdnZXN0cyIsInZhbHVlIjp7InByZXNldCI6IllhLlx1MDQx
    ZFx1MDQzZVx1MDQzMlx1MDQzZVx1MDQ0MVx1MDQ0Mlx1MDQzOCAtIHN1Z2dlc3Rz
    IiwicGFyc2VycyI6W1siTmV0OjpIVFRQIiwiZGVmYXVsdCIseyJ0eXBlIjoib3Zl
    cnJpZGUiLCJpZCI6Imdvb2RDb2RlIiwidmFsdWUiOlsyMDBdfSx7InR5cGUiOiJv
    dmVycmlkZSIsImlkIjoicXVlcnlmb3JtYXQiLCJ2YWx1ZSI6Imh0dHBzOi8vc3Vn
    Z2VzdC55YW5kZXgucnUvc3VnZ2VzdC1uZXdzLXJ1P3Y9NCZobD0xJnBhcnQ9JHF1
    ZXJ5In0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6ImZvcm1hdHJlc3VsdCIsInZh
    bHVlIjoiWyUganNvbiA9IHRvb2xzLnBhcnNlSlNPTihkYXRhKTtcbkZPUkVBQ0gg
    aXRlbSBJTiBqc29uLjE7XG5cdGl0ZW0uMSBfIFwiXFxuXCI7XG5FTkQgJV0ifV1d
    LCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJm
    aWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIs
    ImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVl
    cnlGb3JtYXQiOlsiJHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZl
    RmFpbGVkUXVlcmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExl
    dmVscyI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZSwi
    cXVlcnlCdWlsZGVyc09uQWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25z
    Ijp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6
    Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJl
    c3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxk
    ZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpbXSwicnVuVGFza09uQ29tcGxldGUi
    Om51bGwsInVzZVJlc3VsdHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFsc2UsInJ1blRh
    c2tPbkNvbXBsZXRlQ29uZmlnIjoiZGVmYXVsdCIsInRvb2xzSlMiOiIifX0=
     
    cpu_ekb и vipdenya нравится это.
  3. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    Отлично, спасибо! А как к первому заданию прикрутить антигейт, я работаю через Capmonster... Производительность бы тогда резко увеличилась
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.846
    Симпатии:
    1.672
    Никак, в Net::HTTP нет возможности использовать Антигейт.
     
  5. -Alexx-

    -Alexx- A-Parser Pro License
    A-Parser Pro

    Регистрация:
    11 мар 2019
    Сообщения:
    17
    Симпатии:
    1
    подскажите, пожалуйста, каким образом изменить настройки чтобы парсились только заголовки?
     
    #5 -Alexx-, 20 мар 2019
    Последнее редактирование: 20 мар 2019
  6. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.846
    Симпатии:
    1.672
    Выводите только анкоры:
    Код:
    $p1.serp.format('$anchor\n')
     
  7. -Alexx-

    -Alexx- A-Parser Pro License
    A-Parser Pro

    Регистрация:
    11 мар 2019
    Сообщения:
    17
    Симпатии:
    1
    я имел ввиду чтобы парсер смотрел только заголовки новостей, а не внутренний текст.
    с этим кодом все равно парсер проходится по тексту и там ищет текст запроса
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.846
    Симпатии:
    1.672
    Данный пресет - это пример парсинга выдачи Яндекс.Новостей. Данные собираются из таких страниц: https://news.yandex.ru/yandsearch?rpt=nnews2&text=ростех
    Парсер не открывает новости и никак не анализирует их текст.
    Поэтому, в данном случае анкоры - это заголовки новостей, а сниппеты - это краткое содержание либо выдержка из новости.
    Если анкоры - это не то, что вам нужно, то уточните, пожалуйста, что именно вы имеете в виду под словосочетанием "заголовки новостей".
     
  9. -Alexx-

    -Alexx- A-Parser Pro License
    A-Parser Pro

    Регистрация:
    11 мар 2019
    Сообщения:
    17
    Симпатии:
    1
    да, суть в том, чтобы парсер искал значения запросов только в анкоре.
     
  10. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.846
    Симпатии:
    1.672
    Если вы хотите фильтровать получаемый результат по наличию в анкорах начального запроса, то используйте фильтры, например так:
    [​IMG]
    Подробнее о фильтрах: https://a-parser.com/wiki/filter/

    Если же нет, то покажите на реальном примере что именно нужно сделать.
     
  11. socialist

    socialist A-Parser Pro License
    A-Parser Pro

    Регистрация:
    23 апр 2018
    Сообщения:
    7
    Симпатии:
    0
    Есть ли возможность в парсере задать критерии поиска "Сегодня" и "показать похожие сообщения"?
    https://www.screencast.com/t/X1wwYYiy
     
  12. Support Alexander

    Support Alexander Moderator
    Команда форума A-Parser Enterprise

    Регистрация:
    27 сен 2019
    Сообщения:
    54
    Симпатии:
    21
    Да, критерии поиска возможно задать, для этого перейдем на сайт Яндекс.Новости включим параметры "Сегодня" и "Показать похожие сообщения" в адресной строке можно увидеть какие параметры добавились.
    [​IMG]
    Теперь добавим нужные нам параметры showdups=1 и within=7 в пресет.
    [​IMG]
     
    Support и socialist нравится это.

Поделиться этой страницей