1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг по признакам.

Тема в разделе "Делимся опытом", создана пользователем Piro, 13 апр 2016.

  1. Piro

    Piro A-Parser Pro License
    A-Parser Pro

    Регистрация:
    16 мар 2015
    Сообщения:
    23
    Симпатии:
    0
    Привет , как сделать чтобы когда парсел базу для хрума , сразу же проверял и по признакам и парсил только те движки под которые мне надо
    То есть дле и битрих
    В Hrefer 4.8 есть такое , только там все медленно , я бы хотел так же сделать на a-parser
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.348
    Симпатии:
    2.097
    Добрый день.
    Для DLE можно сделать одним заданием аналогично примеру http://a-parser.com/threads/1327/, т.к. сайты на этом движке можно определить по урлу.
    Для Bitrix двумя заданиями: первым парсите ссылки, вторым с помощью Rank::CMS Rank::CMS определяете и фильтруете нужную CMS.
     
  3. Piro

    Piro A-Parser Pro License
    A-Parser Pro

    Регистрация:
    16 мар 2015
    Сообщения:
    23
    Симпатии:
    0
    А можете скинуть настройки или спойлера под мой требования.
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.348
    Симпатии:
    2.097
    Для DLE делайте аналогично примеру, код пресета там есть.
    Для Bitrix используйте парсер нужной ПС. Полученные ссылки отфильтруйте с помощью [​IMG]Rank::CMS. Задания будут выглядеть примерно так:
    [​IMG]
    Код:
    eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
    InBhcnNlcnMiOltbIlNFOjpHb29nbGUiLCJkZWZhdWx0Iix7InR5cGUiOiJvdmVy
    cmlkZSIsImlkIjoicHJveHlyZXRyaWVzIiwidmFsdWUiOiIxMDAifSx7InR5cGUi
    OiJvdmVycmlkZSIsImlkIjoicGFnZWNvdW50IiwidmFsdWUiOjEwfSx7InR5cGUi
    OiJvcHRpb25zIiwiaWQiOiJwYXJzZUFsbCIsInZhbHVlIjp0cnVlfV1dLCJyZXN1
    bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwi
    cmVzdWx0c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0
    aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6InN0cmluZyIsInF1ZXJp
    ZXNGcm9tIjoidGV4dCIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVR
    dWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRv
    ck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0
    ZXJJdGVyYXRvciI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNPbkFsbExldmVscyI6ZmFs
    c2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ci
    OiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVz
    dWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVy
    cyI6W10sInJlc3VsdHNCdWlsZGVycyI6W3sic291cmNlIjpbMCxbInNlcnAiLCJs
    aW5rIl1dLCJ0eXBlIjoiZXh0cmFjdERvbWFpbiIsImFycmF5Ijoic2VycCIsInRv
    IjoibGluayJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpbXSwicnVuVGFza09uQ29tcGxl
    dGUiOm51bGwsInVzZVJlc3VsdHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFsc2UsInJ1
    blRhc2tPbkNvbXBsZXRlQ29uZmlnIjoiZGVmYXVsdCIsInRvb2xzSlMiOiIiLCJx
    dWVyaWVzIjoiYml0cml4In19

    [​IMG]
    Код:
    eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
    InBhcnNlcnMiOltbIlJhbms6OkNNUyIsImRlZmF1bHQiLHsidHlwZSI6Im92ZXJy
    aWRlIiwiaWQiOiJjYXRzIiwidmFsdWUiOlsiLTFDLUJpdHJpeCJdfSx7InR5cGUi
    OiJmaWx0ZXIiLCJyZXN1bHQiOiJjbXMiLCJmaWx0ZXJUeXBlIjoiY29udGFpbiIs
    InZhbHVlIjoiQml0cml4Iiwib3B0aW9uIjoic2VucyJ9XV0sInJlc3VsdHNGb3Jt
    YXQiOiIkcXVlcnlcXG4iLCJyZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNG
    aWxlTmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50eHQiLCJhZGRpdGlvbmFsRm9y
    bWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbImh0
    dHA6Ly8kcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRR
    dWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpm
    YWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlLCJxdWVyeUJ1
    aWxkZXJzT25BbGxMZXZlbHMiOmZhbHNlfSwicmVzdWx0c09wdGlvbnMiOnsib3Zl
    cndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJt
    b3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0Fw
    cGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltd
    LCJjb25maWdPdmVycmlkZXMiOltdLCJydW5UYXNrT25Db21wbGV0ZSI6bnVsbCwi
    dXNlUmVzdWx0c0ZpbGVBc1F1ZXJpZXNGaWxlIjpmYWxzZSwicnVuVGFza09uQ29t
    cGxldGVDb25maWciOiJkZWZhdWx0IiwidG9vbHNKUyI6IiJ9fQ==
     
  5. Piro

    Piro A-Parser Pro License
    A-Parser Pro

    Регистрация:
    16 мар 2015
    Сообщения:
    23
    Симпатии:
    0
    Почему сразу при парсинге нельзя это делать ?! проверять по критериям почему я должен соберать дофига шлака а потом сортировать ?!
     
  6. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.348
    Симпатии:
    2.097
    Потому что Bitrix определяется только по признакам в коде страницы.
     
  7. Piro

    Piro A-Parser Pro License
    A-Parser Pro

    Регистрация:
    16 мар 2015
    Сообщения:
    23
    Симпатии:
    0
    Ну так как я понимаю можно же подключить файл который будет проверть ссылки на признаки ?! Или это очень сложно все сделать ? Если так то вам есть над чем подумать над следушей обновой.
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.348
    Симпатии:
    2.097
    Что вы имеете в виду?

    Передача результатов одного парсера в другой в рамках одного задания на данный момент не возможна. По этому вопросу есть отдельная тема: http://a-parser.com/threads/373/.
    Поэтому в случае с Bitrix из-за необходимости использовать 2 разных парсера, задача решается двумя заданиями. Впрочем, не составляет никакой сложности автоматизировать запуск второго задания по окончанию первого (http://a-parser.com/threads/2267/#post-7326).
    Для DLE решение проще, т.к. данный движок можно определить по урлу. Поэтому просто используя фильтры и парсер любой ПС, можно решить одним заданием, что и показано в примере по ссылке выше.
     

Поделиться этой страницей