Подскажите парсер текста

kolya757 · 30 Мар 2015

Добрый день! Изучаю а-парсер и совсем запутался((
Подскажите, как сделать, чтобы по кею апарсер брал из выдачи пс (google) топ 10 сайтов и с каждого парсил текст, со страницы по этому кею и сохранял в отдельный файл?

Support · 30 Мар 2015

Все это можно сделать с помощью двух заданий.
Первым заданием мы парсим из Google топ10 сайтов. Для этого нужно выбрать парсер SE:Google и задать для него настройки: Pages count (кол-во страниц) - 1 и Links per page (кол-во ссылок на странице) - 10.

Вторым заданием парсим текст из ссылок. Для этого нужно использовать парсер HTML::TextExtractor. Для записи каждого результата в отдельный файл следует указать в Имени файла: ${query.num}.txt (или в отдельную папку - text/${query.num}.txt)

kolya757 · 31 Мар 2015

Спасибо большое! а подскажите пожалуйста, можно ли как то, сделать чтоб текст парсился не весь подряд, а чтобы каждое предложение в тексте было от 50 символов, именно предложение, а не блог текста? а то если ставить блог текста, то он и категории меню парсит с сайтов, а это получается мусор((

Forbidden · 31 Мар 2015

тут уже без фильтра по регулярному выражению не обойтись:

kolya757 · 1 Апр 2015

Благодарю за помощь!

Max · 14 Апр 2015

Добрый день! у меня немного похожий вопрос:
есть список форумов, где возможно оставлен мой пост (каждый раз - рандом текст), в конце каждого поста - поставлен маркер (не изменяемый): private code: (6T5J7uyTRkJuh7S)

как мне вытащить все линки из моего списка - где стоит этот маркер, т.е. соответственно и проставился пост.

Пробовал HTML::TextExtractor с разными настройками, но или весь текст со страницы парсится со всеми заголовками, либо вообще пустой файл получается.

Forbidden · 14 Апр 2015

Max сказал(а):
как мне вытащить все линки из моего списка - где стоит этот маркер, т.е. соответственно и проставился пост.

http://a-parser.com/threads/946/

Max · 14 Апр 2015

Спасибо огромное!

kolya757 · 28 Апр 2015

Подскажите пожалуйста может ли а парсер скачивать текст с сайта в заданных границах html кода? А то ни как не найду где это описанно

Kreola · 28 Апр 2015

Здравствуйте!
Да, парсер умеет это делать.
Для этого используется парсер NET::Http

kolya757 · 28 Апр 2015

Благодарю все получилось! Спасибо!!!

kolya757 · 30 Апр 2015

Добрый день!
Еще маленький вопрос, можно ли как то указать, чтобы спарщенный текст сохранялся в определенной кодировки? А то на выходи сейчас получается utf без bom а с ним в дальнейшем проблемы в использовании(

Support · 30 Апр 2015

Добрый день. Файл можно перекодировать в Notepad++
Меню кодировки -> Преобразовать в ANSI или любую другую.

kolya757 · 30 Апр 2015

Это я знаю но когда на выходе 100к файлов то так не получится массово сменить

Forbidden · 30 Апр 2015

Других вариантов нет, парсер работает только с utf-8, это самый универсальный вариант

Force68 · 30 Апр 2015

kolya757 сказал(а):
Это я знаю но когда на выходе 100к файлов то так не получится массово сменить

в текстпайпе пакетно можно

kolya757 · 7 Май 2015

Forbidden · 7 Май 2015

примерно так:

vipdenya · 28 Окт 2015

Решил написать здесь. Пробую парсить тематический текст по ссылкам с помощью TextExtractor. Пересмотрел кучу инфы на форуме, начал составлять пресет и ... не осилил.((
Помогите, пожалуйста, с такими моментами:
1. Фильтры по регуляркам.
Нужно, чтобы:
а) парсились предложения только от 50 символов и в конце проставлялась точка(если ее не было). Пока использую регулярку с 4-го поста выше
б) каждая спарсенная строка начиналась с большой буквы(если ее не было)
в) если начало строки какой-то знак(и), цифра(ы), то удаление знака и цифр до первого слова, которое преобразуется с большой буквы
г) очистка от всякого мусора(ссылки, мыла, иероглифы и т.д.)
Чтобы получалось вроде этого, но только под РУ

Support · 29 Окт 2015

Желательно иметь пример, чтобы ответ был более корректный. Вообще могут быть разные варианты, например чтобы точка проставлялась - это врятли, т.к. откуда парсеру знать где ее ставить? Плюс парсинг предложений более 50 символов уже подразумевает разбивку на предложения на основе каких-то признаков. А это и есть точка, знак восклицания или вопроса. Но в общих чертах в пресете это делается так:

несколько Конструкторов результатов с функцией RegEx Replace, для каждого вида "мусора" указываем свою регулярку и заменяем на пустоту для очистки от мусора;
разбиваем на предложения Конструктором результатов с функцией RegEx Match и регуляркой из 4-го поста;
по полученному массиву проходимся следующим Конструктором результатов с функцией RegEx Replace, указываем регулярку ^[\W\d_]+ и заменяем на пустоту для удаления начальных знаков и цифр;
выводим результат, используя шаблонизатор и его функцию .ucfirst (Ссылка) для перевода первой буквы в верхний регистр.

Подскажите парсер текста

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

A-Parser Pro License

Administrator

A-Parser Pro License

A-Parser Enterprise License

Member

A-Parser Enterprise License

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

A-Parser Enterprise License

Administrator

A-Parser Pro License

Administrator

О нас

Быстрая навигация

Соцсети

Поддержка