1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Нужна помощь по парсингу доменов сайтов определённых CMS (WP, Joomla)

Тема в разделе "Делимся опытом", создана пользователем Human, 21 май 2015.

  1. Human

    Human A-Parser Pro License
    A-Parser Pro

    Регистрация:
    10 мар 2015
    Сообщения:
    2
    Симпатии:
    0
    Нужно собирать домены по ключам определённой тематики конкретно этих двух CMS

    Необходимо, чтобы сохранялась тематика по ключевым словам. Пробовал делать к ключевикам приставки типа: wordpress site, joomla site, wp-login.php site, administrator/index.php site, но тогда собираются совсем не тематические линки

    Может есть другое, более удачное решение этой задачи?! Максимизировать выдачу этих CMS при сохранении тематики по ключевым словам
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Как вариант можно решить данную задачу двумя заданиями.

    Первое задание.
    Парсим все ссылки по заданным ключевым словам (key.txt) не забывая об уникализации:
    [​IMG]
    Код:
    eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY1MC8tMSIs
    InZhbHVlIjp7InByZXNldCI6Imh0dHA6Ly9hLXBhcnNlci5jb20vdGhyZWFkcy8x
    NjUwLy0xIiwicGFyc2VycyI6W1siU0U6Okdvb2dsZSIsImRlZmF1bHQiLHsidHlw
    ZSI6Im92ZXJyaWRlIiwiaWQiOiJsaW5rc3BlcnBhZ2UiLCJ2YWx1ZSI6MTAwfSx7
    InR5cGUiOiJvdmVycmlkZSIsImlkIjoicGFnZWNvdW50IiwidmFsdWUiOjEwfV1d
    LCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJm
    aWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoibGlua3MudHh0IiwiYWRkaXRpb25hbEZv
    cm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoic3RyaW5nIiwicXVlcnlGb3JtYXQi
    OlsiJHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVl
    cmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFs
    c2UsInF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZX0sInJlc3VsdHNP
    cHRpb25zIjp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVu
    aXF1ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6
    IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0
    c0J1aWxkZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpbXX19

    Второе задание.
    Все полученные в первом задании ссылки проверяем на нужные нам CMS, и если находим соответствующие - сохраняем их в одноименный файл. В качестве файла запросов указываем полученный в первом задании файл:
    [​IMG]
    Код:
    eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY1MC8tMiIs
    InZhbHVlIjp7InByZXNldCI6Imh0dHA6Ly9hLXBhcnNlci5jb20vdGhyZWFkcy8x
    NjUwLy0yIiwicGFyc2VycyI6W1siUmFuazo6Q01TIiwiZGVmYXVsdCIseyJ0eXBl
    IjoiZmlsdGVyIiwicmVzdWx0IjoiY21zIiwiZmlsdGVyVHlwZSI6InJlbWF0Y2gi
    LCJ2YWx1ZSI6Ikpvb21sYXxXb3JkUHJlc3MiLCJvcHRpb24iOiIifV1dLCJyZXN1
    bHRzRm9ybWF0IjoiJHAxLnF1ZXJ5Lm9yaWdcXG4iLCJyZXN1bHRzU2F2ZVRvIjoi
    ZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6ImNtcy0ke3AxLmNtc30udHh0IiwiYWRk
    aXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZv
    cm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWls
    ZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxz
    IjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlfSwicmVz
    dWx0c09wdGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJr
    ZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVw
    ZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJy
    ZXN1bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfX0=

    На выходе получаем 2 файла с ссылками.
     
  3. Human

    Human A-Parser Pro License
    A-Parser Pro

    Регистрация:
    10 мар 2015
    Сообщения:
    2
    Симпатии:
    0
    вариант этот я попробовал, очень слабый результат в итоге
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    эксперементируй с запросами, пробуй использовать строгий поиск в кавычках, например:
    Код:
    "green apple" "powered by wordpress"
     

Поделиться этой страницей