1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

A-Parser - парсер для профессионалов SEO

июн
16
by Support at 11:43
(11.483 Просмотров / 3 Симпатии)
0 Комментарии
5-й выпуск сборника рецептов. Здесь мы научимся парсить ссылки из страниц, где их подгружает JS-скрипт, будем собирать паблик прокси и составлять карту сайта.

Подгрузка ссылок через JS
Есть очень много сайтов, где контент загружается специальным скриптом (AJAX). К примеру, это может быть поиск на сайте. И как спарсить с таких сайтов информацию? Ведь если посмотреть код страницы в браузере - то, к примеру, ссылки там есть, а парсер их не видит... Решение есть, и оно довольно не сложное. Как это сделать - по ссылке выше.

Сборщик паблик прокси: как лучше и насколько это эффективно
Всем известно, что в интернете есть очень много сайтов, где выкладывают публичные прокси (что это на Википедии). Если возникает необходимость в использовании...
июн
01
by Support at 17:11
(11.780 Просмотров / 3 Симпатии)
0 Комментарии
Очередной, 4-й выпуск сборника рецептов. Поехали!

Анализ выдачи гугла на наличие ключа в тайтле и дескрипшене
Пользуемся возможностями шаблонизатора Template Toolkit. Используем циклы и поиск. А также сохраняем разные результаты в разные файлы.

В данном примере осуществляется поиск ключа в анкорах и сниппетах, и в зависимости от результата, сохраняет их в 1 из 3 соответствующих файлов. Все подробности, а также сохранение в 4-ре файла по ссылке выше.

Парсинг товаров с сайта
Парсим интернет-магазин и формируем свою HTML-страницу с результатами.
[​IMG]
Суть задания заключается в том, чтобы спарсить названия и характеристики товара из интернет-магазина, сохранив привязку к категории и фото товара. Как все это сделать - по ссылке выше.

Скачиваем файлы
Сохраняем на жесткий диск...
май
25
by Support at 16:22
(10.543 Просмотров / 4 Симпатии)
0 Комментарии
Итак, продолжаем серию статей с рецептами применения A-parser: комплексные примеры с одновременным использованием различного функционала парсера.

Проверяем наличие мобильной версии для 1000000 сайтов

Работаем с большими объемами данных и учимся искать совпадения в raw data.

  • за 8 часов работы данного задания мы узнали что почти 41% самых посещаемых сайтов не имеют мобильных версий. Кто знает, возможно обзаведясь мобильной версией, они стали бы еще более посещаемыми?

По списку запросов получаем страницы, CMS, PR, e-mail из whois

Комплексное задание, выполняемое в 2 этапа, в котором мы учимся работать с несколькими парсерами, регулярными выражениями, а также красиво выводим результаты во многоуровневые каталоги и несколько файлов.
[​IMG]
  • на первом этапе используется 1 парсер, на втором - 3
  • в конструкторе...
май
19
by Forbidden at 08:48
(3.013 Просмотров / 2 Симпатии)
0 Комментарии
С помощью данного софта задействованы основные возможности парсера A-Parser при генерации сайтов программой PandoraBox.

Обсуждение на форуме A-Parser'а и ссылка на сайт генератора

Применяет возможности А-Парсера для:
  • Парсинга релевантного текста
  • Парсинга релевантных картинок
  • Парсинга релевантных видео роликов

Понимает какие ключи уже обработаны и не парсит одно и тоже дважды
С программой идут готовые пресеты, которые достаточно импортировать и можно запускать генерацию
Спаршенные данные программа структурировано раскладывает в файлы и папки
Спаршенный текст программа чистит от мусора по множеству признаков

В комплекте с программой идет набор дополнительных макросов:
  • Макрос вывода релевантного текста с подмешанными ключами
  • Макрос вывода релевантного текста без ключей
  • Макрос вывода релевантной картинки
  • Макрос вывода релевантной картинки как...
май
05
by Forbidden at 05:39
(2.658 Просмотров / 0 Симпатии)
0 Комментарии
Улучшения

  • В конструкторе результатов и фильтрах теперь возможно использовать произвольный шаблон в качестве аргумента для преобразования или фильтрации
  • В парсер SE::Yandex SE::Yandex добавлена возможность выбора домена yandex.com для парсинга
  • Добавлен новый поисковик SE::Ask SE::Ask с американской выдачей Google
  • Добавлен новый поисковик SE::Comcast SE::Comcast с американской выдачей Google
  • Добавлена статистика для завершенных заданий, а также отображение общего времени выполнения задания
  • Добавлен объект $request, который доступен при форматировании результата и позволяет извлечь любую информацию о текущем запросе, а также о всех редиректах выполненных перед конечным запросом
Исправления

  • Парсер мог заблокировать файл результата после завершения задания
  • Исправлена некорректная обработка <base href= в некоторых случаях
  • Парсер вылетал при использовании инструмента генерации произвольного User-Agent...