Распарсить базу по ключам

  • Автор темы Автор темы SPEED
  • Дата начала Дата начала

SPEED

A-Parser Pro License
A-Parser Pro
Привет

Подскажите как сделать следующее: имеется база 2кк необходимо проверить ее на наличие ключевиков в тексте...

Допустим есть ключи:

скрипт казино
купить казино
скачать казино
soft casino


и если есть полное совпадение по ключу, не зависимо от регистра букв, то такой сайт записываем в базу...

Спасибо
 
Или такой вариант:
weFmr.png
 
Исходя из вашего задания, если бы он нашел там велосипед, то в последней строке Тестового лога была бы ссылка на этот сайт. А так там пусто, что значит, что велосипед не был найден среди всего контента. Попробуйте вписать, к примеру, gold, и если это слово будет там найдено (а оно будет найдено), то вы увидите ссылку на этот сайт.
 
Исходя из вашего задания, если бы он нашел там велосипед, то в последней строке Тестового лога была бы ссылка на этот сайт. А так там пусто, что значит, что велосипед не был найден среди всего контента. Попробуйте вписать, к примеру, gold, и если это слово будет там найдено (а оно будет найдено), то вы увидите ссылку на этот сайт.

Ага, понял. Дабы не плодить темы, два вопрсоа в догонку если можно:

1. возможно ли распарсить весь сайт по ключу. Например имеем ссылку: http://a-parser.com/ и ключ "Демо версия" запускаем парсер и он шастая по всем внутренним ссылкам ищет данный ключ, найдя записывает в базу: http://a-parser.com/threads/1535/ записывает всего 1 ссылку и переходит к следующему сайту

2. второй вопрос сам решил )

Спасибо
 
Последнее редактирование:
возможно ли распарсить весь сайт по ключу. Например имеем ссылку: http://a-parser.com/ и ключ "Демо версия" запускаем парсер и он шастая по всем внутренним ссылкам ищет данный ключ, найдя записывает в базу: http://a-parser.com/threads/1535/ записывает всего 1 ссылку и переходит к следующему сайту
Одним заданием - вряд ли. А вот двумя - пожалуйста. Сначала используя HTML::LinkExtractor сохраняем все внутренние ссылки. Потом, во втором задании, с помощью Net::HTTP проверяем каждую ссылку на предмет вхождения нужных слов, и если находим - сохраняем ссылку.
 
12345.png

При старте задания, возникает ошибка: Error: Queries file must be in UTF-8 - файл results/all_base_22.05.2015.txt на сервере в кодировке UTF-8 w/o BOM
 
нужен пример файла. лично я не представляю в чем может быть причина.
 
2015052323_1418245_17411483.png

все нормально работает
Попробуй мой пресет...

Код:
eyJwcmVzZXQiOiJcdTA0MWZcdTA0MzBcdTA0NDBcdTA0NDFcdTA0MzhcdTA0M2Rc
dTA0MzMgXHUwNDNmXHUwNDNlIFx1MDQzYVx1MDQzYlx1MDQ0ZVx1MDQ0N1x1MDQz
MFx1MDQzYyIsInZhbHVlIjp7InByZXNldCI6Ilx1MDQxZlx1MDQzMFx1MDQ0MFx1
MDQ0MVx1MDQzOFx1MDQzZFx1MDQzMyBcdTA0M2ZcdTA0M2UgXHUwNDNhXHUwNDNi
XHUwNDRlXHUwNDQ3XHUwNDMwXHUwNDNjIiwicGFyc2VycyI6W1siTmV0OjpIVFRQ
IiwiZGVmYXVsdCIseyJ0eXBlIjoiZmlsdGVyIiwicmVzdWx0IjoiZGF0YSIsImZp
bHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUiOiJcdTA0NDFcdTA0M2FcdTA0NDBc
dTA0MzhcdTA0M2ZcdTA0NDIgXHUwNDNhXHUwNDMwXHUwNDM3XHUwNDM4XHUwNDNk
XHUwNDNlfFx1MDQzMFx1MDQ0MFx1MDQzNVx1MDQzZFx1MDQzNFx1MDQzMCBcdTA0
M2FcdTA0MzBcdTA0MzdcdTA0MzhcdTA0M2RcdTA0M2V8XHUwNDQxXHUwNDNhXHUw
NDQwXHUwNDM4XHUwNDNmXHUwNDQyIFx1MDQzOFx1MDQzZFx1MDQ0Mlx1MDQzNVx1
MDQ0MFx1MDQzZFx1MDQzNVx1MDQ0MiBcdTA0M2FcdTA0MzBcdTA0MzdcdTA0Mzhc
dTA0M2RcdTA0M2V8XHUwNDQxXHUwNDM4XHUwNDQxXHUwNDQyXHUwNDM1XHUwNDNj
XHUwNDMwIFx1MDQzYVx1MDQzMFx1MDQzN1x1MDQzOFx1MDQzZFx1MDQzZXxcdTA0
NDFcdTA0M2VcdTA0MzdcdTA0MzRcdTA0MzBcdTA0M2RcdTA0MzhcdTA0MzUgXHUw
NDM4XHUwNDNkXHUwNDQyXHUwNDM1XHUwNDQwXHUwNDNkXHUwNDM1XHUwNDQyIFx1
MDQzYVx1MDQzMFx1MDQzN1x1MDQzOFx1MDQzZFx1MDQzZXxcdTA0M2FcdTA0MzBc
dTA0MzdcdTA0MzhcdTA0M2RcdTA0M2UgXHUwNDNmXHUwNDNlXHUwNDM0IFx1MDQz
YVx1MDQzYlx1MDQ0ZVx1MDQ0N3xcdTA0NDBcdTA0MzBcdTA0MzdcdTA0NDBcdTA0
MzBcdTA0MzFcdTA0M2VcdTA0NDJcdTA0M2FcdTA0MzAgXHUwNDNhXHUwNDMwXHUw
NDM3XHUwNDM4XHUwNDNkXHUwNDNlfFx1MDQzOFx1MDQzM1x1MDQzZVx1MDQ0MFx1
MDQzZFx1MDQzMFx1MDQ0ZiBcdTA0NDFcdTA0MzhcdTA0NDFcdTA0NDJcdTA0MzVc
dTA0M2NcdTA0NGJ8XHUwNDM4XHUwNDMzXHUwNDNlXHUwNDQwXHUwNDNkXHUwNDRi
XHUwNDM5IFx1MDQ0MVx1MDQzMFx1MDQzOVx1MDQ0MnxnYW1pbmF0b3J8Z2FtaW5h
dG9yc3x3ZWJjYXNofHN1cGVyb21hdGljfG1lZ2FzdXBlcm9tYXRpY3xcdTA0NDFc
dTA0NDNcdTA0M2ZcdTA0MzVcdTA0NDBcdTA0M2VcdTA0M2NcdTA0MzBcdTA0NDJc
dTA0MzhcdTA0M2F8bm92b21hdGljfG11bHRpZ2FtaW5hdG9yfG11bHRpLWdhbWlu
YXRvcnxcdTA0M2FcdTA0NDNcdTA0M2ZcdTA0MzhcdTA0NDJcdTA0NGMgXHUwNDNh
XHUwNDMwXHUwNDM3XHUwNDM4XHUwNDNkXHUwNDNlfFx1MDQzYVx1MDQzMFx1MDQz
N1x1MDQzOFx1MDQzZFx1MDQzZSBcdTA0MzJcdTA0NDNcdTA0M2JcdTA0M2FcdTA0
MzBcdTA0M2R8XHUwNDNhXHUwNDQzXHUwNDNmXHUwNDM4XHUwNDQyXHUwNDRjIFx1
MDQzYVx1MDQzMFx1MDQzN1x1MDQzOFx1MDQzZFx1MDQzZSBcdTA0MzJcdTA0NDNc
dTA0M2JcdTA0M2FcdTA0MzBcdTA0M2R8XHUwNDMyXHUwNDQzXHUwNDNiXHUwNDNh
XHUwNDMwXHUwNDNkIFx1MDQzZVx1MDQ0MFx1MDQzOFx1MDQzM1x1MDQzOFx1MDQz
ZFx1MDQzMFx1MDQzYnxnb2xkc3ZldCIsIm9wdGlvbiI6ImlzIn0seyJ0eXBlIjoi
b3ZlcnJpZGUiLCJpZCI6ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJHF1ZXJ5XFxu
In0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZh
bHNlfV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZl
VG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoiL2Nhc2luby8yMy4wNS4yMDE1
LnR4dCIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5v
IiwicXVlcnlGb3JtYXQiOlsiJHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNl
LCJzYXZlRmFpbGVkUXVlcmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJv
bkFsbExldmVscyI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpm
YWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xv
ZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJy
ZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxk
ZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpb
XX19
 
Последнее редактирование:
Все норм
2015052323_2550998_17411533.png

Может с версией что-то не то?, Какая версия проги?. Перекачай и замени aparser.exe
 
Назад
Верх