Подскажите пожалуйста, как настроить парсер, чтоб он по списку запросов, заходил, допустим на первую страницу выдачи гугла, затем переходил по ссылкам с выдачи и парсил текст, к примеру чтоб в текстовых блоках было не менее 500 знаков, (ну или другой какой параметр - смысл в том чтоб текстовой контент парсил, а не всё подряд со страницы) и сохранял это в текстовой файл, очистив от тегов html и прочего, ну вроде как чистый текст чтоб на выходе получался, возможно ли так сделать?
возможно в 2 этапа: 1. парсим ссылки на интересующие страницы через парсер SE::Google 2. парсим контент с этих ссылок с помощью парсера текста HTML::TextExtractor, будет текст очищенный от мусора, минимальную длину блока можно задать в настройках
Forbidden, а документации на текст экстрактор то и нету, про настройки не почитать как там чего настроить можно
От всё равно непонятно, так в настройках есть поле post body как я предполагаю для обозначения блока размётки для парсинга = пишу туда HTML: <div class="post"></div> но парсится всё равно всё подряд, так же при настройках задания есть какие то пункты но как ими пользоватся фиг знает, вы бы показали на примере какого нибудь форума что ли, как настроить парсер чтоб спарсить чисто контент без мусора типа
POST Body и опции это от парсера Net::HTTP на котором основан Text::Extractor, непосредственного отношения к извлечению текста они не имеют вот пример парсинга этой страницы, о каком мусоре идет речь?
То есть как выкинуть из результатов парсинга строчку короче определеннго количества символов? на скрине это
На странице документации http://a-parser.com/wiki/html-textextractor/ ссылку на которую дали несколько постами выше написано: "Min block length 50 Минимальная длинна текстового блока в символах" Пример: парсим блоки длиной минимум 200 символов, разделяем отдельный блоки через ------ используя Result format:
А как объединить эти 2 этапа в одном задании? Т.е. на входе список ключевых слов, а на выходе текст для каждого ключевого слова в отдельном файле или все в одном файле, но по шаблону, например: "кейворд1|текст соответствующий кейворду1" "кейворд2|текст соответствующий кейворду2" и т.д.
в одном задании - никак, для этого и написано что нужно 2 этапа зависимость кейворд - текст можно реализовать так: сохранять key|link на первом этапе на втором использовать Query Builder для разделения запроса на кей и ссылку
Подскажите пожалуйста как сделать 1-как создать запрос из файла результатов вида $query|$link? 2-как сохранить результаты в разные файлы с названием кей и спаршенному тексту по этому кею внутри?