Парсинг по признакам.

  • Автор темы Автор темы Piro
  • Дата начала Дата начала

Piro

A-Parser Pro License
A-Parser Pro
Привет , как сделать чтобы когда парсел базу для хрума , сразу же проверял и по признакам и парсил только те движки под которые мне надо
То есть дле и битрих
В Hrefer 4.8 есть такое , только там все медленно , я бы хотел так же сделать на a-parser
 
Добрый день.
Для DLE можно сделать одним заданием аналогично примеру http://a-parser.com/threads/1327/, т.к. сайты на этом движке можно определить по урлу.
Для Bitrix двумя заданиями: первым парсите ссылки, вторым с помощью Rank::CMS Rank::CMS определяете и фильтруете нужную CMS.
 
А можете скинуть настройки или спойлера под мой требования.
 
Для DLE делайте аналогично примеру, код пресета там есть.
Для Bitrix используйте парсер нужной ПС. Полученные ссылки отфильтруйте с помощью
rank-cms.png
Rank::CMS. Задания будут выглядеть примерно так:
p07HV.png

Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
InBhcnNlcnMiOltbIlNFOjpHb29nbGUiLCJkZWZhdWx0Iix7InR5cGUiOiJvdmVy
cmlkZSIsImlkIjoicHJveHlyZXRyaWVzIiwidmFsdWUiOiIxMDAifSx7InR5cGUi
OiJvdmVycmlkZSIsImlkIjoicGFnZWNvdW50IiwidmFsdWUiOjEwfSx7InR5cGUi
OiJvcHRpb25zIiwiaWQiOiJwYXJzZUFsbCIsInZhbHVlIjp0cnVlfV1dLCJyZXN1
bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwi
cmVzdWx0c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0
aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6InN0cmluZyIsInF1ZXJp
ZXNGcm9tIjoidGV4dCIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVR
dWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRv
ck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0
ZXJJdGVyYXRvciI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNPbkFsbExldmVscyI6ZmFs
c2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ci
OiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVz
dWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVy
cyI6W10sInJlc3VsdHNCdWlsZGVycyI6W3sic291cmNlIjpbMCxbInNlcnAiLCJs
aW5rIl1dLCJ0eXBlIjoiZXh0cmFjdERvbWFpbiIsImFycmF5Ijoic2VycCIsInRv
IjoibGluayJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpbXSwicnVuVGFza09uQ29tcGxl
dGUiOm51bGwsInVzZVJlc3VsdHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFsc2UsInJ1
blRhc2tPbkNvbXBsZXRlQ29uZmlnIjoiZGVmYXVsdCIsInRvb2xzSlMiOiIiLCJx
dWVyaWVzIjoiYml0cml4In19

1P3cK.png

Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
InBhcnNlcnMiOltbIlJhbms6OkNNUyIsImRlZmF1bHQiLHsidHlwZSI6Im92ZXJy
aWRlIiwiaWQiOiJjYXRzIiwidmFsdWUiOlsiLTFDLUJpdHJpeCJdfSx7InR5cGUi
OiJmaWx0ZXIiLCJyZXN1bHQiOiJjbXMiLCJmaWx0ZXJUeXBlIjoiY29udGFpbiIs
InZhbHVlIjoiQml0cml4Iiwib3B0aW9uIjoic2VucyJ9XV0sInJlc3VsdHNGb3Jt
YXQiOiIkcXVlcnlcXG4iLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNG
aWxlTmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50eHQiLCJhZGRpdGlvbmFsRm9y
bWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbImh0
dHA6Ly8kcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRR
dWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpm
YWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlLCJxdWVyeUJ1
aWxkZXJzT25BbGxMZXZlbHMiOmZhbHNlfSwicmVzdWx0c09wdGlvbnMiOnsib3Zl
cndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJt
b3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0Fw
cGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltd
LCJjb25maWdPdmVycmlkZXMiOltdLCJydW5UYXNrT25Db21wbGV0ZSI6bnVsbCwi
dXNlUmVzdWx0c0ZpbGVBc1F1ZXJpZXNGaWxlIjpmYWxzZSwicnVuVGFza09uQ29t
cGxldGVDb25maWciOiJkZWZhdWx0IiwidG9vbHNKUyI6IiJ9fQ==
 
Почему сразу при парсинге нельзя это делать ?! проверять по критериям почему я должен соберать дофига шлака а потом сортировать ?!
 
Потому что Bitrix определяется только по признакам в коде страницы.
 
Ну так как я понимаю можно же подключить файл который будет проверть ссылки на признаки ?! Или это очень сложно все сделать ? Если так то вам есть над чем подумать над следушей обновой.
 
Ну так как я понимаю можно же подключить файл который будет проверть ссылки на признаки ?!
Что вы имеете в виду?

Передача результатов одного парсера в другой в рамках одного задания на данный момент не возможна. По этому вопросу есть отдельная тема: http://a-parser.com/threads/373/.
Поэтому в случае с Bitrix из-за необходимости использовать 2 разных парсера, задача решается двумя заданиями. Впрочем, не составляет никакой сложности автоматизировать запуск второго задания по окончанию первого (http://a-parser.com/threads/2267/#post-7326).
Для DLE решение проще, т.к. данный движок можно определить по урлу. Поэтому просто используя фильтры и парсер любой ПС, можно решить одним заданием, что и показано в примере по ссылке выше.
 
Назад
Верх