Парсер текста

  • Автор темы Автор темы Force68
  • Дата начала Дата начала

Force68

A-Parser Enterprise License
A-Parser Enterprise
Подскажите пожалуйста,
как настроить парсер, чтоб он по списку запросов,
заходил, допустим на первую страницу выдачи гугла,
затем переходил по ссылкам с выдачи и парсил текст,
к примеру чтоб в текстовых блоках было не менее 500 знаков,
(ну или другой какой параметр - смысл в том чтоб текстовой контент парсил,
а не всё подряд со страницы)

и сохранял это в текстовой файл, очистив от тегов html и прочего,
ну вроде как чистый текст чтоб на выходе получался,

возможно ли так сделать?
 
возможно в 2 этапа:
1. парсим ссылки на интересующие страницы через парсер SE::Google
2. парсим контент с этих ссылок с помощью парсера текста HTML::TextExtractor, будет текст очищенный от мусора, минимальную длину блока можно задать в настройках
 
Forbidden, а документации на текст экстрактор то и нету,
про настройки не почитать как там чего o_O настроить можно
 
Cтатья по парсеру
html-textextractor.png
HTML::TextExtractor создана.
 
От всё равно непонятно,
так в настройках есть поле post body
как я предполагаю для обозначения блока размётки для парсинга =

пишу туда
HTML:
<div class="post"></div>

но парсится всё равно всё подряд,
так же при настройках задания есть какие то пункты

95147142040c0f9fcf024cdb9cec1b2c.jpg


но как ими пользоватся фиг знает,

вы бы показали на примере какого нибудь форума что ли,
как настроить парсер чтоб спарсить чисто контент без мусора

типа
Зарегистрирован: 06 мар 2013, 05:38
Сообщения: 29
Последний визит: 26 окт 2013, 19:31
Откуда: Россия, Новокузнецк
Благодарил (а): 0 раз.
Поблагодарили: раз.




 
POST Body и опции это от парсера Net::HTTP на котором основан Text::Extractor, непосредственного отношения к извлечению текста они не имеют

вот пример парсинга этой страницы, о каком мусоре идет речь?

XNJL1.png
 
Хм, ну я имел ввиду возможность парсить только тело сообщения,
без элементов навигации и пр.
 
То есть как выкинуть из результатов парсинга строчку короче определеннго количества символов?
на скрине это

2ce282e95ef27e260e0d76322be3a50b.jpg
 
На странице документации http://a-parser.com/wiki/html-textextractor/ ссылку на которую дали несколько постами выше написано:
"Min block length 50 Минимальная длинна текстового блока в символах"

Пример: парсим блоки длиной минимум 200 символов, разделяем отдельный блоки через ------ используя Result format:

f6Vme.png
 
возможно в 2 этапа:
1. парсим ссылки на интересующие страницы через парсер SE::Google
2. парсим контент с этих ссылок с помощью парсера текста HTML::TextExtractor, будет текст очищенный от мусора, минимальную длину блока можно задать в настройках

А как объединить эти 2 этапа в одном задании?
Т.е. на входе список ключевых слов, а на выходе текст для каждого ключевого слова в отдельном файле
или все в одном файле, но по шаблону, например:
"кейворд1|текст соответствующий кейворду1"
"кейворд2|текст соответствующий кейворду2"
и т.д.
 
в одном задании - никак, для этого и написано что нужно 2 этапа
зависимость кейворд - текст можно реализовать так:
сохранять key|link на первом этапе
на втором использовать Query Builder для разделения запроса на кей и ссылку
 
зависимость кейворд - текст можно реализовать так:
сохранять key|link на первом этапе
на втором использовать Query Builder для разделения запроса на кей и ссылку

Подскажите пожалуйста как сделать

1-как создать запрос из файла результатов вида
$query|$link?
2-как сохранить результаты в разные файлы с названием кей и спаршенному тексту по этому кею внутри?
 
Назад
Верх