Привет Подскажите как сделать следующее: имеется база 2кк необходимо проверить ее на наличие ключевиков в тексте... Допустим есть ключи: скрипт казино купить казино скачать казино soft casino и если есть полное совпадение по ключу, не зависимо от регистра букв, то такой сайт записываем в базу... Спасибо
Здравствуйте! Все тоже самое, что и тут http://a-parser.com/threads/1651/. Только формат вывода поменять на такой Код: [% IF a || b || c || d %]$query\n[% END %]
Попробовал тестовый запрос и не совсем понял, как мне кажется парсер в тексте нашол слово велосипед ? Если так, то это не верно...
Исходя из вашего задания, если бы он нашел там велосипед, то в последней строке Тестового лога была бы ссылка на этот сайт. А так там пусто, что значит, что велосипед не был найден среди всего контента. Попробуйте вписать, к примеру, gold, и если это слово будет там найдено (а оно будет найдено), то вы увидите ссылку на этот сайт.
Ага, понял. Дабы не плодить темы, два вопрсоа в догонку если можно: 1. возможно ли распарсить весь сайт по ключу. Например имеем ссылку: http://a-parser.com/ и ключ "Демо версия" запускаем парсер и он шастая по всем внутренним ссылкам ищет данный ключ, найдя записывает в базу: http://a-parser.com/threads/1535/ записывает всего 1 ссылку и переходит к следующему сайту 2. второй вопрос сам решил ) Спасибо
Одним заданием - вряд ли. А вот двумя - пожалуйста. Сначала используя HTML::LinkExtractor сохраняем все внутренние ссылки. Потом, во втором задании, с помощью Net::HTTP проверяем каждую ссылку на предмет вхождения нужных слов, и если находим - сохраняем ссылку.
При старте задания, возникает ошибка: Error: Queries file must be in UTF-8 - файл results/all_base_22.05.2015.txt на сервере в кодировке UTF-8 w/o BOM
Базу создал сам парсер и кодировка не менялась... Щас конечно попробую изменить, но это вызывает сомнения...
Попробуй мой пресет... Спойлер: пресет Код: eyJwcmVzZXQiOiJcdTA0MWZcdTA0MzBcdTA0NDBcdTA0NDFcdTA0MzhcdTA0M2Rc dTA0MzMgXHUwNDNmXHUwNDNlIFx1MDQzYVx1MDQzYlx1MDQ0ZVx1MDQ0N1x1MDQz MFx1MDQzYyIsInZhbHVlIjp7InByZXNldCI6Ilx1MDQxZlx1MDQzMFx1MDQ0MFx1 MDQ0MVx1MDQzOFx1MDQzZFx1MDQzMyBcdTA0M2ZcdTA0M2UgXHUwNDNhXHUwNDNi XHUwNDRlXHUwNDQ3XHUwNDMwXHUwNDNjIiwicGFyc2VycyI6W1siTmV0OjpIVFRQ IiwiZGVmYXVsdCIseyJ0eXBlIjoiZmlsdGVyIiwicmVzdWx0IjoiZGF0YSIsImZp bHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUiOiJcdTA0NDFcdTA0M2FcdTA0NDBc dTA0MzhcdTA0M2ZcdTA0NDIgXHUwNDNhXHUwNDMwXHUwNDM3XHUwNDM4XHUwNDNk XHUwNDNlfFx1MDQzMFx1MDQ0MFx1MDQzNVx1MDQzZFx1MDQzNFx1MDQzMCBcdTA0 M2FcdTA0MzBcdTA0MzdcdTA0MzhcdTA0M2RcdTA0M2V8XHUwNDQxXHUwNDNhXHUw NDQwXHUwNDM4XHUwNDNmXHUwNDQyIFx1MDQzOFx1MDQzZFx1MDQ0Mlx1MDQzNVx1 MDQ0MFx1MDQzZFx1MDQzNVx1MDQ0MiBcdTA0M2FcdTA0MzBcdTA0MzdcdTA0Mzhc dTA0M2RcdTA0M2V8XHUwNDQxXHUwNDM4XHUwNDQxXHUwNDQyXHUwNDM1XHUwNDNj XHUwNDMwIFx1MDQzYVx1MDQzMFx1MDQzN1x1MDQzOFx1MDQzZFx1MDQzZXxcdTA0 NDFcdTA0M2VcdTA0MzdcdTA0MzRcdTA0MzBcdTA0M2RcdTA0MzhcdTA0MzUgXHUw NDM4XHUwNDNkXHUwNDQyXHUwNDM1XHUwNDQwXHUwNDNkXHUwNDM1XHUwNDQyIFx1 MDQzYVx1MDQzMFx1MDQzN1x1MDQzOFx1MDQzZFx1MDQzZXxcdTA0M2FcdTA0MzBc dTA0MzdcdTA0MzhcdTA0M2RcdTA0M2UgXHUwNDNmXHUwNDNlXHUwNDM0IFx1MDQz YVx1MDQzYlx1MDQ0ZVx1MDQ0N3xcdTA0NDBcdTA0MzBcdTA0MzdcdTA0NDBcdTA0 MzBcdTA0MzFcdTA0M2VcdTA0NDJcdTA0M2FcdTA0MzAgXHUwNDNhXHUwNDMwXHUw NDM3XHUwNDM4XHUwNDNkXHUwNDNlfFx1MDQzOFx1MDQzM1x1MDQzZVx1MDQ0MFx1 MDQzZFx1MDQzMFx1MDQ0ZiBcdTA0NDFcdTA0MzhcdTA0NDFcdTA0NDJcdTA0MzVc dTA0M2NcdTA0NGJ8XHUwNDM4XHUwNDMzXHUwNDNlXHUwNDQwXHUwNDNkXHUwNDRi XHUwNDM5IFx1MDQ0MVx1MDQzMFx1MDQzOVx1MDQ0MnxnYW1pbmF0b3J8Z2FtaW5h dG9yc3x3ZWJjYXNofHN1cGVyb21hdGljfG1lZ2FzdXBlcm9tYXRpY3xcdTA0NDFc dTA0NDNcdTA0M2ZcdTA0MzVcdTA0NDBcdTA0M2VcdTA0M2NcdTA0MzBcdTA0NDJc dTA0MzhcdTA0M2F8bm92b21hdGljfG11bHRpZ2FtaW5hdG9yfG11bHRpLWdhbWlu YXRvcnxcdTA0M2FcdTA0NDNcdTA0M2ZcdTA0MzhcdTA0NDJcdTA0NGMgXHUwNDNh XHUwNDMwXHUwNDM3XHUwNDM4XHUwNDNkXHUwNDNlfFx1MDQzYVx1MDQzMFx1MDQz N1x1MDQzOFx1MDQzZFx1MDQzZSBcdTA0MzJcdTA0NDNcdTA0M2JcdTA0M2FcdTA0 MzBcdTA0M2R8XHUwNDNhXHUwNDQzXHUwNDNmXHUwNDM4XHUwNDQyXHUwNDRjIFx1 MDQzYVx1MDQzMFx1MDQzN1x1MDQzOFx1MDQzZFx1MDQzZSBcdTA0MzJcdTA0NDNc dTA0M2JcdTA0M2FcdTA0MzBcdTA0M2R8XHUwNDMyXHUwNDQzXHUwNDNiXHUwNDNh XHUwNDMwXHUwNDNkIFx1MDQzZVx1MDQ0MFx1MDQzOFx1MDQzM1x1MDQzOFx1MDQz ZFx1MDQzMFx1MDQzYnxnb2xkc3ZldCIsIm9wdGlvbiI6ImlzIn0seyJ0eXBlIjoi b3ZlcnJpZGUiLCJpZCI6ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJHF1ZXJ5XFxu In0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZh bHNlfV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZl VG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoiL2Nhc2luby8yMy4wNS4yMDE1 LnR4dCIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5v IiwicXVlcnlGb3JtYXQiOlsiJHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNl LCJzYXZlRmFpbGVkUXVlcmllcyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJv bkFsbExldmVscyI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpm YWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xv ZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJy ZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxk ZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpb XX19