Периодически парсю емайлы с разных сайтов. Иногда нет возможности распарсить сайт, приходится скачивать сниппеты, в которых имеются нужные данные. После чего файл сниппетов заливаю на свой сервер и уже с этого файла выдергиваю контакты. Возможно ли настроить парсер таким образом, чтобы при парсинге сниппетов сохранять в результирующий файл только нужные данные, а не весь сниппет ? Если возможно, то как это сделать ?
Так же как и при использовании парсера Net::HTTP + Parse custom result, т.е. мы добавляем опцию Parse custom result и обрабатываем результат {snippet} Второй вариант - использовать Results builder и обрабатывать сниппет любым доступным способом
А возможно ли как то во время парсинга делать обработку снипетов - очистить их от html тегов и цифр, чтоб получить на выходе чистый текст?
Конечно, а для чего еще создавался Results builder? хтмл убираем встроенной функцией Remove HTML tags цифры - регексом \d+ с флагом g(все вхождения) заменяем на ничего
Сниппеты в поисковых системах - Термин сниппет иногда используется для небольших отрывков текста из найденной поисковой машиной страницы сайта, использующихся в качестве описания ссылки в результатах поиска. Как правило, они содержат контекст, в котором встретилось ключевое слово в тексте на странице. В качестве сниппетов также может выводиться текст из мета-тега «Description» (с) Wikipedia На данном скриншоте сниппет - 4ый блок сверху: