Нужна помощь по парсингу доменов сайтов определённых CMS (WP, Joomla)

  • Автор темы Автор темы Human
  • Дата начала Дата начала

Human

A-Parser Pro License
A-Parser Pro
Нужно собирать домены по ключам определённой тематики конкретно этих двух CMS

Необходимо, чтобы сохранялась тематика по ключевым словам. Пробовал делать к ключевикам приставки типа: wordpress site, joomla site, wp-login.php site, administrator/index.php site, но тогда собираются совсем не тематические линки

Может есть другое, более удачное решение этой задачи?! Максимизировать выдачу этих CMS при сохранении тематики по ключевым словам
 
Как вариант можно решить данную задачу двумя заданиями.

Первое задание.
Парсим все ссылки по заданным ключевым словам (key.txt) не забывая об уникализации:
zmeWR.png

Код:
eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY1MC8tMSIs
InZhbHVlIjp7InByZXNldCI6Imh0dHA6Ly9hLXBhcnNlci5jb20vdGhyZWFkcy8x
NjUwLy0xIiwicGFyc2VycyI6W1siU0U6Okdvb2dsZSIsImRlZmF1bHQiLHsidHlw
ZSI6Im92ZXJyaWRlIiwiaWQiOiJsaW5rc3BlcnBhZ2UiLCJ2YWx1ZSI6MTAwfSx7
InR5cGUiOiJvdmVycmlkZSIsImlkIjoicGFnZWNvdW50IiwidmFsdWUiOjEwfV1d
LCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJm
aWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoibGlua3MudHh0IiwiYWRkaXRpb25hbEZv
cm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoic3RyaW5nIiwicXVlcnlGb3JtYXQi
OlsiJHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVl
cmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFs
c2UsInF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZX0sInJlc3VsdHNP
cHRpb25zIjp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVu
aXF1ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6
IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0
c0J1aWxkZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpbXX19

Второе задание.
Все полученные в первом задании ссылки проверяем на нужные нам CMS, и если находим соответствующие - сохраняем их в одноименный файл. В качестве файла запросов указываем полученный в первом задании файл:
iYj0l.png

Код:
eyJwcmVzZXQiOiJodHRwOi8vYS1wYXJzZXIuY29tL3RocmVhZHMvMTY1MC8tMiIs
InZhbHVlIjp7InByZXNldCI6Imh0dHA6Ly9hLXBhcnNlci5jb20vdGhyZWFkcy8x
NjUwLy0yIiwicGFyc2VycyI6W1siUmFuazo6Q01TIiwiZGVmYXVsdCIseyJ0eXBl
IjoiZmlsdGVyIiwicmVzdWx0IjoiY21zIiwiZmlsdGVyVHlwZSI6InJlbWF0Y2gi
LCJ2YWx1ZSI6Ikpvb21sYXxXb3JkUHJlc3MiLCJvcHRpb24iOiIifV1dLCJyZXN1
bHRzRm9ybWF0IjoiJHAxLnF1ZXJ5Lm9yaWdcXG4iLCJyZXN1bHRzU2F2ZVRvIjoi
ZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6ImNtcy0ke3AxLmNtc30udHh0IiwiYWRk
aXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZv
cm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWls
ZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxz
IjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlfSwicmVz
dWx0c09wdGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJr
ZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVw
ZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJy
ZXN1bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfX0=

На выходе получаем 2 файла с ссылками.
 
вариант этот я попробовал, очень слабый результат в итоге
 
эксперементируй с запросами, пробуй использовать строгий поиск в кавычках, например:
Код:
"green apple" "powered by wordpress"
 
Назад
Верх