1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

A-Parser - парсер для профессионалов SEO

сен
19
by Support at 12:00
(9.344 Просмотров / 2 Симпатии)
0 Комментарии
15-й выпуск Сборника рецептов. В нем мы будем парсить Google PageSpeed Insights, который позволяет оценивать скорость загрузки, юзабилити сайтов и даже получать их скриншоты; сделаем кастомный парсер Яндекс.Картинок и научимся получать полные ссылки из выдачи Baidu. Поехали!

Анализ скорости загрузки и юзабилити сайтов
У Google есть довольно неплохой сервис PageSpeed Insights, который измеряет скорость загрузки веб-страниц, оценивает их юзабилити и даже делает скриншоты страниц. При этом оценивается обычная и мобильная версия парсера. Поэтому мы не могли обойти стороной такой сервис и не сделать для него парсер. О том, что получилось - читайте по ссылке выше.


Кастомный парсер Яндекс Картинок
На форуме неоднократно спрашивали когда в А-Парсер будет добавлен парсер картинок Яндекса. На данный момент такой парсер уже есть: SE::Yandex::Images SE::Yandex::Images. Но в данной...
сен
05
by Forbidden at 08:23
(2.231 Просмотров / 5 Симпатии)
0 Комментарии
В версии 1.1.626 добавлена поддержка каптчи при логине в Яндекс аккаунт в парсерах SE::Yandex SE::Yandex, SE::Yandex::WordStat SE::Yandex::WordStat и SE::Yandex::Direct::Frequency SE::Yandex::Direct::Frequency:

[​IMG]

Также для этих парсеров добавлена настройка Remove bad accounts, которая автоматически удаляет аккаунты с неверным логин/паролем или требующие подтверждения по телефону. Опция включена по умолчанию

Добавлен новый парсер картинок SE::Yandex::Images SE::Yandex::Images, поддерживает все фильтры(размер, ориентация, тип, цвет, тип файла...). Как известно Яндекс отлично индексирует все картинки для взрослых - отличный способ набрать контента для своих доров/тюбов. В дополнении есть возможность выставить безопасный поиск

[​IMG]

Парсер Яндекс картинок также поддерживает работу с антигейтом(anti-captcha, rucaptcha, CapMonster - любой сервис с поддержкой API антигейта)

Исправления в связи с...
авг
17
by Forbidden at 05:39
(2.751 Просмотров / 1 Симпатии)
7 Комментарии
В этой версии проделана большая работа по оптимизации потребления памяти, а также стабильной работе парсера 24/7 с множеством числом заданий

Улучшения
  • Уменьшение потребления памяти
  • Оптимизация парсера SE::Yandex SE::Yandex - увеличение предельной скорости парсинга в 2.5 раза(~1500 запросов минуту, i7-4770)
Исправления в связи с изменениями в выдаче
Исправления
  • Исправлен SE::Google SE::Google при работе с антигейтом: неверная обработка запросов со скобками и очень длинных запросов
  • Исправлен Net::HTTP Net::HTTP - при выполнении цепочки редиректов теперь передается оригинальный реферер
  • Исправлена работа с сессиями в SE::Yandex::WordStat SE::Yandex::WordStat
июл
20
by Forbidden at 09:14
(2.657 Просмотров / 5 Симпатии)
1 Комментарии
После ужесточения парсинга со стороны гугла A-Parser стал парсить его быстрее чем раньше, результаты тестирования парсинга в 1000 потоков, 1 страница по 100 результатов - более 4000 запросов в минуту

[​IMG]

Улучшения
  • Переработан парсер SE::Google SE::Google - увеличена скорость парсинга в 10-20 раз
  • Названия пресетов заданий теперь сортируются при добавлении
Исправления
  • SE::Google SE::Google - исправлена обработка каптчи в связи с изменением выдачи
  • Net::Whois Net::Whois - исправлена работа с некоторыми зонами
  • SE::Yandex::Register SE::Yandex::Register - исправлена работа с каптчей при регистрации аккаунта
  • Исправлено отображение дебаг информации для прокси чекеров
июл
06
by Forbidden at 08:04
(2.015 Просмотров / 2 Симпатии)
0 Комментарии
Улучшения
  • В очереди заданий теперь запоминается текущая страница отдельно для активных и завершенных задач
  • Добавлена возможность вывести время выполнения каждого запроса
Исправления в связи с изменениями в выдаче
Исправления
  • Улучшена обработка кодировки текста в HTML::TextExtractor HTML::TextExtractor
  • В очереди заданий в некоторых случаях могли не отображаться кнопки управления заданием