Добрый день! Изучаю а-парсер и совсем запутался(( Подскажите, как сделать, чтобы по кею апарсер брал из выдачи пс (google) топ 10 сайтов и с каждого парсил текст, со страницы по этому кею и сохранял в отдельный файл?
Все это можно сделать с помощью двух заданий. Первым заданием мы парсим из Google топ10 сайтов. Для этого нужно выбрать парсер SE:Google и задать для него настройки: Pages count (кол-во страниц) - 1 и Links per page (кол-во ссылок на странице) - 10. Вторым заданием парсим текст из ссылок. Для этого нужно использовать парсер HTML::TextExtractor. Для записи каждого результата в отдельный файл следует указать в Имени файла: ${query.num}.txt (или в отдельную папку - text/${query.num}.txt)
Спасибо большое! а подскажите пожалуйста, можно ли как то, сделать чтоб текст парсился не весь подряд, а чтобы каждое предложение в тексте было от 50 символов, именно предложение, а не блог текста? а то если ставить блог текста, то он и категории меню парсит с сайтов, а это получается мусор((
Добрый день! у меня немного похожий вопрос: есть список форумов, где возможно оставлен мой пост (каждый раз - рандом текст), в конце каждого поста - поставлен маркер (не изменяемый): private code: (6T5J7uyTRkJuh7S) как мне вытащить все линки из моего списка - где стоит этот маркер, т.е. соответственно и проставился пост. Пробовал HTML::TextExtractor с разными настройками, но или весь текст со страницы парсится со всеми заголовками, либо вообще пустой файл получается.
Подскажите пожалуйста может ли а парсер скачивать текст с сайта в заданных границах html кода? А то ни как не найду где это описанно
Добрый день! Еще маленький вопрос, можно ли как то указать, чтобы спарщенный текст сохранялся в определенной кодировки? А то на выходи сейчас получается utf без bom а с ним в дальнейшем проблемы в использовании(
Добрый день. Файл можно перекодировать в Notepad++ Меню кодировки -> Преобразовать в ANSI или любую другую.
Подскажите пожалуйста хочу спарсить текст с сайтов но запутался( Вообщем есть файл с запросами вида: КЕЙ1|сылка1|сылка2|сылка3|сылка4|сылка5| КЕЙ2|сылка1|сылка2|сылка3|сылка4|сылка5| Как задать запрос чтобы собирал текст с указанных ссылок и при этом сохронял это все в 1 файл в таком виде: КЕЙ1|текст1|текст2|текст3|текст4|текст5| возможно ли это вообще реализовать?
Решил написать здесь. Пробую парсить тематический текст по ссылкам с помощью TextExtractor. Пересмотрел кучу инфы на форуме, начал составлять пресет и ... не осилил.(( Помогите, пожалуйста, с такими моментами: 1. Фильтры по регуляркам. Нужно, чтобы: а) парсились предложения только от 50 символов и в конце проставлялась точка(если ее не было). Пока использую регулярку с 4-го поста выше б) каждая спарсенная строка начиналась с большой буквы(если ее не было) в) если начало строки какой-то знак(и), цифра(ы), то удаление знака и цифр до первого слова, которое преобразуется с большой буквы г) очистка от всякого мусора(ссылки, мыла, иероглифы и т.д.) Чтобы получалось вроде этого, но только под РУ
Желательно иметь пример, чтобы ответ был более корректный. Вообще могут быть разные варианты, например чтобы точка проставлялась - это врятли, т.к. откуда парсеру знать где ее ставить? Плюс парсинг предложений более 50 символов уже подразумевает разбивку на предложения на основе каких-то признаков. А это и есть точка, знак восклицания или вопроса. Но в общих чертах в пресете это делается так: несколько Конструкторов результатов с функцией RegEx Replace, для каждого вида "мусора" указываем свою регулярку и заменяем на пустоту для очистки от мусора; разбиваем на предложения Конструктором результатов с функцией RegEx Match и регуляркой из 4-го поста; по полученному массиву проходимся следующим Конструктором результатов с функцией RegEx Replace, указываем регулярку ^[\W\d_]+ и заменяем на пустоту для удаления начальных знаков и цифр; выводим результат, используя шаблонизатор и его функцию .ucfirst (Ссылка) для перевода первой буквы в верхний регистр.