1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг только определенных движков

Тема в разделе "Делимся опытом", создана пользователем Bran, 17 сен 2013.

  1. Bran

    Bran A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    31 авг 2013
    Сообщения:
    32
    Симпатии:
    3
    Добрый день!

    Подскажите пожалуйста, можете ли Aparser производить поиск и/или парсинг только сайтов на определенных cms, например WP Joomla?

    RankCMS, как я понял, только со списком доменов работает...
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.793
    Rank::CMS проверяет имеющуюся базу сайтов на вид CMS

    чтобы парсить определенный движки необходимо сотавить корректные запросы(признаки) для парсера SE::Google или любого другого SE парсера
     
  3. Bran

    Bran A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    31 авг 2013
    Сообщения:
    32
    Симпатии:
    3
    Это более чем логично. Но при таком подходе много мусора и идет значительный пропуск ресурсов.

    Вы не планируете добавить поддержку цепочек парсинга?
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.793
    планирую :)


    ну предложи другой подход :)
     
  5. Bran

    Bran A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    31 авг 2013
    Сообщения:
    32
    Симпатии:
    3
    Если б знал - уже бы всех научил давно:)
     
  6. Redrums777

    Redrums777 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 сен 2013
    Сообщения:
    10
    Симпатии:
    0
    А где можно список признаков каждого движка найти?
     
  7. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.793
    Все признаки задаются в файле files/Rank-CMS/engines.txt, описание формата этого файла в самом начале самого файла :)
     
  8. Redrums777

    Redrums777 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 сен 2013
    Сообщения:
    10
    Симпатии:
    0
    Это я увидел, а в самом парсере как задание должно выглядеть, чтобы в окончательный результат попадали только домены на которых стоят движки JM и WP?
     
  9. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.793
    Ответ во втором сообщении в этом топике, необходимо анализировать необходимый движок и составлять верные поисковые запросы
    Самый простой вариант поиск по уникальной части ссылки, характерной для какого либо движка, например для вордпресса:
    inurl:wp-login.php
    Этот вариант так же самый медленный - такие запросы очень сильно банятся со стороны гугла

    Можно также искать по вхожению фразы, которая повторяется на всех сайтах:
    "Powered by wordpress"
    Некоторые из таких запросов так же сильно баняться как и inurl
     

Поделиться этой страницей