Подскажите парсер текста

kolya757

A-Parser Enterprise License
A-Parser Enterprise
Добрый день! Изучаю а-парсер и совсем запутался((
Подскажите, как сделать, чтобы по кею апарсер брал из выдачи пс (google) топ 10 сайтов и с каждого парсил текст, со страницы по этому кею и сохранял в отдельный файл?
 
Все это можно сделать с помощью двух заданий.
Первым заданием мы парсим из Google топ10 сайтов. Для этого нужно выбрать парсер SE:Google и задать для него настройки: Pages count (кол-во страниц) - 1 и Links per page (кол-во ссылок на странице) - 10.
fPqKP.png


Вторым заданием парсим текст из ссылок. Для этого нужно использовать парсер HTML::TextExtractor. Для записи каждого результата в отдельный файл следует указать в Имени файла: ${query.num}.txt (или в отдельную папку - text/${query.num}.txt)
fCnvl.png
 
Последнее редактирование:
Спасибо большое! а подскажите пожалуйста, можно ли как то, сделать чтоб текст парсился не весь подряд, а чтобы каждое предложение в тексте было от 50 символов, именно предложение, а не блог текста? а то если ставить блог текста, то он и категории меню парсит с сайтов, а это получается мусор((
 
Добрый день! у меня немного похожий вопрос:
есть список форумов, где возможно оставлен мой пост (каждый раз - рандом текст), в конце каждого поста - поставлен маркер (не изменяемый): private code: (6T5J7uyTRkJuh7S)

как мне вытащить все линки из моего списка - где стоит этот маркер, т.е. соответственно и проставился пост.

Пробовал HTML::TextExtractor с разными настройками, но или весь текст со страницы парсится со всеми заголовками, либо вообще пустой файл получается.
 
Подскажите пожалуйста может ли а парсер скачивать текст с сайта в заданных границах html кода? А то ни как не найду где это описанно
 
Добрый день!
Еще маленький вопрос, можно ли как то указать, чтобы спарщенный текст сохранялся в определенной кодировки? А то на выходи сейчас получается utf без bom а с ним в дальнейшем проблемы в использовании(
 
Добрый день. Файл можно перекодировать в Notepad++
Меню кодировки -> Преобразовать в ANSI или любую другую.
 
Это я знаю но когда на выходе 100к файлов то так не получится массово сменить
 
Других вариантов нет, парсер работает только с utf-8, это самый универсальный вариант
 
Подскажите пожалуйста хочу спарсить текст с сайтов но запутался(
Вообщем есть файл с запросами вида:
КЕЙ1|сылка1|сылка2|сылка3|сылка4|сылка5|
КЕЙ2|сылка1|сылка2|сылка3|сылка4|сылка5|
Как задать запрос чтобы собирал текст с указанных ссылок и при этом сохронял это все в 1 файл в таком виде:
КЕЙ1|текст1|текст2|текст3|текст4|текст5|
возможно ли это вообще реализовать?
 
Решил написать здесь. Пробую парсить тематический текст по ссылкам с помощью TextExtractor. Пересмотрел кучу инфы на форуме, начал составлять пресет и ... не осилил.((
Помогите, пожалуйста, с такими моментами:
1. Фильтры по регуляркам.
Нужно, чтобы:
а) парсились предложения только от 50 символов и в конце проставлялась точка(если ее не было). Пока использую регулярку с 4-го поста выше
б) каждая спарсенная строка начиналась с большой буквы(если ее не было)
в) если начало строки какой-то знак(и), цифра(ы), то удаление знака и цифр до первого слова, которое преобразуется с большой буквы
г) очистка от всякого мусора(ссылки, мыла, иероглифы и т.д.)
Чтобы получалось вроде этого, но только под РУ
10318148.png
 
Желательно иметь пример, чтобы ответ был более корректный. Вообще могут быть разные варианты, например чтобы точка проставлялась - это врятли, т.к. откуда парсеру знать где ее ставить? Плюс парсинг предложений более 50 символов уже подразумевает разбивку на предложения на основе каких-то признаков. А это и есть точка, знак восклицания или вопроса. Но в общих чертах в пресете это делается так:
  • несколько Конструкторов результатов с функцией RegEx Replace, для каждого вида "мусора" указываем свою регулярку и заменяем на пустоту для очистки от мусора;
  • разбиваем на предложения Конструктором результатов с функцией RegEx Match и регуляркой из 4-го поста;
  • по полученному массиву проходимся следующим Конструктором результатов с функцией RegEx Replace, указываем регулярку ^[\W\d_]+ и заменяем на пустоту для удаления начальных знаков и цифр;
  • выводим результат, используя шаблонизатор и его функцию .ucfirst (Ссылка) для перевода первой буквы в верхний регистр.
 
Назад
Верх