10-й выпуск Сборника рецептов. В нем мы сделаем кастомный парсер поисковика search.disconnect.me и научимся парсить категории из сайтов с сохранением иерархии и путей к ним. Парсер search.disconnect.me или альтернатива inurl Google В одном из сообщений на форуме был упомянут довольно интересный сервис search.disconnect.me. Также в последнее время все чаще стали появляться сообщения о проблемах при парсинге Гугла с поисковыми операторами. А так как вышеупомянутый сервис позволяет парсить Гугл, при этом не выдавая каптч и без бана прокси, можно попробовать сделать для него парсер на основе Net::HTTP. Что из этого получилось - можно посмотреть по ссылке выше. Парсинг дерева категорий с сохранением структуры В версии 1.1.292 появилась новая опция Query Builders on all levels. С ее помощью можно регулировать, когда применять Конструктор запросов при парсинге "в глубину". И благодаря этой опции стало возможным парсить дерево категорий из сайтов с сохранением структуры. Как это работает - можно посмотреть по ссылке выше. Еще больше различных рецептов в нашем Каталоге примеров! Предыдущие сборники: Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы Сборник рецептов #5: ссылки из JS, паблик прокси и карта сайта Сборник рецептов #6: парсим базу номеров телефонов и сохраняем результаты красиво Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность