Парсер Яндекс.Новости

Пресет Как парсить Яндекс.Новости? 1.0

Доступно владельцам лицензии

poiskspider

A-Parser Pro License
A-Parser Pro
Собственно сам вопрос в названии темы. Вот парсинг гугл-новостей есть прямо в парсере, а как парсить яндекс новости?
 
Варианта два:
  1. Создать задачу в разделе Задачи http://a-parser.com/forum/issues/
  2. Сделать кастомный парсер самостоятельно
Второй вариант решается довольно просто:
t52pd.png

  • В качестве запросов нужно подавать ключевые слова
  • Параметры поиска можно регулировать, подставляя нужные значения параметров в Query format, аналогично адресной строке в браузере
  • В примере регулярное выражение парсит также и сниппеты, но в результат они не выводятся. При желании вы можете вывести их
  • Также в примере парсятся первые 5 страниц. Изменить это кол-во можно в параметре Limit в Next page RegEx
  • Для обхода каптчи используется функция Check content
  • Теги <strong> специально не убраны, чтобы можно было дополнительно парсить выделенные слова. Для того, чтобы их убрать, нужно воспользовать Конструктором результатов
Код:
eyJwcmVzZXQiOiJZYS5cdTA0MWRcdTA0M2VcdTA0MzJcdTA0M2VcdTA0NDFcdTA0
NDJcdTA0MzgiLCJ2YWx1ZSI6eyJwcmVzZXQiOiJZYS5cdTA0MWRcdTA0M2VcdTA0
MzJcdTA0M2VcdTA0NDFcdTA0NDJcdTA0MzgiLCJwYXJzZXJzIjpbWyJOZXQ6OkhU
VFAiLCJkZWZhdWx0Iix7InR5cGUiOiJvdmVycmlkZSIsImlkIjoiZ29vZENvZGUi
LCJ2YWx1ZSI6WzIwMF19LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJxdWVyeWZv
cm1hdCIsInZhbHVlIjoiaHR0cHM6Ly9uZXdzLnlhbmRleC5ydS95YW5kc2VhcmNo
P3JwdD1ubmV3czImdGV4dD0kcXVlcnkifSx7InR5cGUiOiJjdXN0b21SZXN1bHQi
LCJyZXN1bHQiOlsicGFnZXMiLCJkYXRhIl0sInJlZ2V4IjoiPGRpdiBjbGFzcz1c
ImRvY3VtZW50X19wcm92aWRlci1uYW1lXCI+KC4rPyk8XFwvZGl2Pi4rPzxkaXYg
Y2xhc3M9XCJkb2N1bWVudF9fdGltZVwiPiguKz8pPFxcL2Rpdj4uKz88ZGl2IGNs
YXNzPVwiZG9jdW1lbnRfX3RpdGxlXCI+PGEuKz9ocmVmPVwiKC4rPylcIltePl0q
PiguKz8pPFxcL2E+Lis/PGRpdiBjbGFzcz1cImRvY3VtZW50X19zbmlwcGV0XCI+
KC4rPyk8XFwvZGl2PiIsInJlZ2V4VHlwZSI6InNnIiwicmVzdWx0VHlwZSI6ImFy
cmF5IiwiYXJyYXlOYW1lIjoic2VycCIsInJlc3VsdHMiOlsicHJvdmlkZXIiLCJ0
aW1lIiwibGluayIsImFuY2hvciIsInNuaXBwZXQiXX0seyJ0eXBlIjoib3ZlcnJp
ZGUiLCJpZCI6ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJHNlcnAuZm9ybWF0KCck
dGltZSwgJHByb3ZpZGVyOiAkYW5jaG9yICgkbGluaylcXG4nKSJ9LHsidHlwZSI6
Im9wdGlvbnMiLCJpZCI6ImNoZWNrTmV4dFBhZ2UiLCJ2YWx1ZSI6ImhyZWY9XCIo
W15cIl0rKVwiW14+XSo+PHNwYW4gY2xhc3M9XCJidXR0b25fX3RleHRcIj5cdTA0
MjFcdTA0M2JcdTA0MzVcdTA0MzRcdTA0NDNcdTA0NGVcdTA0NDlcdTA0MzBcdTA0
NGYiLCJhZGRpdGlvbmFsIjp7ImNoZWNrTmV4dFBhZ2VMaW1pdCI6IjQifX0seyJ0
eXBlIjoib3B0aW9ucyIsImlkIjoiY2hlY2tDb250ZW50IiwidmFsdWUiOiI8aDEg
Y2xhc3M9XCJ0aXRsZVwiPlx1MDQzZVx1MDQzOS4uLjwvaDE+IiwiYWRkaXRpb25h
bCI6eyJjaGVja0NvbnRlbnRNYXRjaFR5cGUiOjB9fV1dLCJyZXN1bHRzRm9ybWF0
IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0c0Zp
bGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9uYWxGb3Jt
YXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVlcnlGb3JtYXQiOlsiJHF1
ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmllcyI6
ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2UsInF1
ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZSwicXVlcnlCdWlsZGVyc09u
QWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6
ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlv
bnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIi
LCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwiY29uZmln
T3ZlcnJpZGVzIjpbXSwicnVuVGFza09uQ29tcGxldGUiOm51bGwsInVzZVJlc3Vs
dHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFsc2UsInJ1blRhc2tPbkNvbXBsZXRlQ29u
ZmlnIjoiZGVmYXVsdCIsInRvb2xzSlMiOiIifX0=

И вдобавок еще парсер подсказок Яндекс Новостей:
tF3yW.png

Код:
eyJwcmVzZXQiOiJZYS5cdTA0MWRcdTA0M2VcdTA0MzJcdTA0M2VcdTA0NDFcdTA0
NDJcdTA0MzggLSBzdWdnZXN0cyIsInZhbHVlIjp7InByZXNldCI6IllhLlx1MDQx
ZFx1MDQzZVx1MDQzMlx1MDQzZVx1MDQ0MVx1MDQ0Mlx1MDQzOCAtIHN1Z2dlc3Rz
IiwicGFyc2VycyI6W1siTmV0OjpIVFRQIiwiZGVmYXVsdCIseyJ0eXBlIjoib3Zl
cnJpZGUiLCJpZCI6Imdvb2RDb2RlIiwidmFsdWUiOlsyMDBdfSx7InR5cGUiOiJv
dmVycmlkZSIsImlkIjoicXVlcnlmb3JtYXQiLCJ2YWx1ZSI6Imh0dHBzOi8vc3Vn
Z2VzdC55YW5kZXgucnUvc3VnZ2VzdC1uZXdzLXJ1P3Y9NCZobD0xJnBhcnQ9JHF1
ZXJ5In0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6ImZvcm1hdHJlc3VsdCIsInZh
bHVlIjoiWyUganNvbiA9IHRvb2xzLnBhcnNlSlNPTihkYXRhKTtcbkZPUkVBQ0gg
aXRlbSBJTiBqc29uLjE7XG5cdGl0ZW0uMSBfIFwiXFxuXCI7XG5FTkQgJV0ifV1d
LCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJm
aWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIs
ImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVl
cnlGb3JtYXQiOlsiJHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZl
RmFpbGVkUXVlcmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExl
dmVscyI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZSwi
cXVlcnlCdWlsZGVyc09uQWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25z
Ijp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6
Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJl
c3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxk
ZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpbXSwicnVuVGFza09uQ29tcGxldGUi
Om51bGwsInVzZVJlc3VsdHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFsc2UsInJ1blRh
c2tPbkNvbXBsZXRlQ29uZmlnIjoiZGVmYXVsdCIsInRvb2xzSlMiOiIifX0=
 
Отлично, спасибо! А как к первому заданию прикрутить антигейт, я работаю через Capmonster... Производительность бы тогда резко увеличилась
 
Никак, в Net::HTTP нет возможности использовать Антигейт.
 
подскажите, пожалуйста, каким образом изменить настройки чтобы парсились только заголовки?
 
Последнее редактирование:
Выводите только анкоры:
Код:
$p1.serp.format('$anchor\n')
 
я имел ввиду чтобы парсер смотрел только заголовки новостей, а не внутренний текст.
с этим кодом все равно парсер проходится по тексту и там ищет текст запроса
 
Данный пресет - это пример парсинга выдачи Яндекс.Новостей. Данные собираются из таких страниц: https://news.yandex.ru/yandsearch?rpt=nnews2&text=ростех
Парсер не открывает новости и никак не анализирует их текст.
Поэтому, в данном случае анкоры - это заголовки новостей, а сниппеты - это краткое содержание либо выдержка из новости.
Если анкоры - это не то, что вам нужно, то уточните, пожалуйста, что именно вы имеете в виду под словосочетанием "заголовки новостей".
 
да, суть в том, чтобы парсер искал значения запросов только в анкоре.
 
Если вы хотите фильтровать получаемый результат по наличию в анкорах начального запроса, то используйте фильтры, например так:
dddlf_190402181737.png

Подробнее о фильтрах: https://a-parser.com/wiki/filter/

Если же нет, то покажите на реальном примере что именно нужно сделать.
 
Есть ли возможность в парсере задать критерии поиска "Сегодня" и "показать похожие сообщения"?
Да, критерии поиска возможно задать, для этого перейдем на сайт Яндекс.Новости включим параметры "Сегодня" и "Показать похожие сообщения" в адресной строке можно увидеть какие параметры добавились.
g0cui_200110102712.png

Теперь добавим нужные нам параметры showdups=1 и within=7 в пресет.
udvt9_200110103134.png
 
Привет,
Копирую пресет парсинга новостей в итоге пустой файлю Что я делаю не так? Может настройки поменялись? Извинете если что я пока полный нуб.
 
Да, критерии поиска возможно задать, для этого перейдем на сайт Яндекс.Новости включим параметры "Сегодня" и "Показать похожие сообщения" в адресной строке можно увидеть какие параметры добавились.
g0cui_200110102712.png

Теперь добавим нужные нам параметры showdups=1 и within=7 в пресет.
udvt9_200110103134.png
Добрый день! В ЯНовостях изменилась выдача. Как смог, поправил пресет. Формирование критериев поиска тоже изменилось, но для "сегодня" работают старые.
Код:
eJylVW1v2zYQ/isBYaTNGsuy42KN5jhIDQTbkMZZ6n4oLNdgpZPFhSJVknJiuP7v
PVJvdpt2H/aFIo/38tzdc+KWGKof9J0CDUaTYL4luduTgHykXQGPupvJuDs4998M
/MGAnJKcKg3K6s7JLZgg+HM2u0N5DAktuCGnW2I2OaADuQalWAx4yWI8r6SMJ9Kd
15QXqDIf+P5i93OLLwWoTSJVRk1rRFJjch30ehadBqqi1NtQEcOTpwon7JXSSwNP
5qLjnBwnnJqL/vEjMykTF7+TvahRoY3M7kE7+ESVm2COqa5A29SooWRhb1bwhAaj
9Owo4lTri5Bkq64WLM/BLJeF4t1HRfGgQjIeUe/VZaogQa2XuD2ZX349pln+x6Iw
2VLLQkWA4lHM1s96M8xwsH50TsWRkhxQwaaEMudvFIY9eze2XpzSs25Ki//lpVui
7TKRyOUSqyKiTVfQDH5wQqoqzcrS6lVT0EpClaIbFLrvLbqwWqDyRs8yi3AmHqyS
iFKpcFPhsPRTco0MsULD0PpX9CmZo+rG1vzp2HheefnyRcfGOj3qlLFwU8XCXR0r
DMWLk33GyNwwKXQdJ0oherjFmt5hafaJWjV//ikki1cnIZl/Gi9+Gx9W+XNhjBRN
n8LCHw76dj377NbXbh3adXjmVnDruZP7bp/YWsUxs6goJ8H2ENINy5id6CHZ/UcS
EykMiP1ijdJ+A7VmpIvsUJyde5436qX98fMIKn/vqInSkgD+brdYNL2+Lmcbe5L3
verP01y+p2uYSdtHxqEVX+OpIk79i+rghILVqrt64pkncwCpjGTJ1Ub/INgXl6SQ
qGv/Ewz0tZIZimw7KuGmRjkn5c/E/gsKZ/tPaUOChHINyFOEfE0RSPz9DTOgqJFq
WlUdKyTFFec3sAbeqjn/bwvGkXb6KkGjvyrD51WmP/jYNenth8LJeFSIofHiTm+n
71qrWN7IVV0MbimDZz2RhbAN8lH4AJA3Nbu1aplU0ISpPFfR8U3JQVhmta27ylvR
QRoHbTkURlIkbDWtRrvWLMQMH66pmMgs52DzEgXn2BYN9y1NrnTVBntoAX5vPHEh
EFbzhhEjJdd/vy+h5oohDV9bgBlWcj9q5TKinH+4v9m/IS2l8ODG2m8HZ1iOOG2H
uBzxaqDd7XDgVlv5CPm9ksg8zH63aB7h5t3e7j3FwRannPyr70odm7rVQBnWUGOr
SNDffQPvErYN
 
Назад
Верх