Перейти к основному содержимому

Часто задаваемые вопросы

1.1. Как скачать результаты в Demo версии?

В Demo версии результаты работы не доступны для скачивания. Мы предоставляем их по вашим запросам. Пришлите ваши запросы и скажите, какой парсер вас интересует, а мы отправим вам результаты (в рамках демо их кол-во ограниченно).

1.2. Нужно ли доплачивать за что-то после покупки A-Parser?
1.3. Где, как можно оплатить прокси?

При покупке лицензии вам предоставляются бонусные прокси.

Lite - 20 потоков на 2 недели, Pro и Enterprise - 50 потоков на месяц.

Купить больше потоков или продлить вы можете в Личном кабинете на вкладке Магазин, подраздел Прокси.

1.4. Не могли бы вы мне настроить задание за деньги?

Техническая поддержка по вопросам связанным с работой А-Парсера предоставляется бесплатно. Насчет платной помощи в составлении заданий можно обращаться сюда: Платные услуги по составлению заданий, помощь с настройкой и обучение работы с A-Parser.

1.5. Могу ли я произвести оплату за парсер через банк Приват24? Через KIWI?

Перечень платежных систем, с которыми мы работаем, указан здесь: купить А-Парсер.

1.6. Если мне нужно спарсить только количество проиндексированных страниц в Яндексе, какой парсер мне лучше купить?

Для таких целей достаточно Lite-версии, но Pro более практична и гибкая в работе.

1.7. Где посмотреть сведения о моей лицензии?
1.8. Возможно ли купленные прокси использовать с нескольких ip?

Нет.

2. Вопросы по установке, запуску и обновлениях

2.1. Нажимаю на кнопку Download - а архив не скачивается. Что делать?

Проверте, есть ли у вас свободное место на жестком диске, отключите антивирус. Следуйте инструкции по установке. Также ознакомьтесь с Как начать работать.

2.2. Купил Enterprise версию, но устанавливается по прежнему PRO. Что делать?

Удалите предыдущую версию. В Members Area проверьте верно ли прописан ваш IP-адрес. Перед загрузкой нажмите кнопку Обновить. Скачайте более новую версию. Более детально в инструкции по установке.

2.3. Установил программу, а она не запускается, что делать?

Проверьте запущенные приложения, отключите антивирус, проверьте доступный объём свободной оперативной памяти. Также в Личном кабинете проверьте верно ли прописан ваш IP-адрес. Более детально: инструкции по установке.

2.4. Что делать если у меня динамический IP-адрес?

Ничего страшного, A-Parser поддерживает работу с динамическими IP-адресами. Просто каждый раз, когда он меняется, вам необходимо его прописывать в Members Area. Для того, чтобы избежать данных манипуляций, рекомендуется использовать статический IP-адрес.

2.5. Какие оптимальные параметры сервера, компьютера для установки парсера?

Все системные требования можно посмотреть здесь: системные требования.

2.6. Запустил задание. Парсер упал и больше не запускается что делать?

Необходимо остановить сервер, проверить, не висит ли процесс в памяти, и попробовать запустить еще раз. Так же можно попробовать запустить А-Парсер с остановкой всех заданий. Для этого нужно запустить с параметром -stoptasks. Детально про запуск с параметром.

2.7. Какой пароль вводить при открытии адреса 127.0.0.1:9091?

Если это первый запуск, то пароль пустой. Если не первый - то тот, который Вы задали. Если забыли пароль - сброс пароля.

2.8. В Личном кабинете ввожу свой IP, а он не меняется в поле Ваш текущий IP. Почему?

Поле Ваш текущий IP отображает IP который у вас сейчас действителен, и он не должен менятся. Это его Вы должны вписать в поле IP 1.

2.9. Могу ли я запустить одновременно две копии?

Запустить две копии на одной машине можно только если у них будет прописан разных порт в файле конфигурации.

Запустить два А-Парсера на разных машинах одновременно можно только если у вас приобретён дополнительный IP в Личном кабинете.

2.10. Есть ли у парсера привязка к железу?

Нет. Для контроля лицензий используется ваш IP.

2.11. Вопрос по обновлению - обновлять только .exe? config/config.db и files/Rank-CMS/apps.json - а для чего эти файлы?

Если иное не указано, то обновлять только .exe. Первый файл для хранения конфигурации А-Парсера, а второй - это база для определения CMS и собственно работы самого парсера Rank::CMSRank::CMS.

2.12. У меня Win Server 2008 Web Edition - парсер не запускается...

На данной версии ОС А-парсер не будет работать. Единственный вариант - сменить ОС.

2.13. У меня 4-ядерный процессор. Почему А-Парсер использует только одно ядро?

A-Parser использует от 2х до 4х ядер, дополнительные ядра используется только при фильтрации, Конструкторе результатов, Parse custom result

2.14. У меня начала появляться ошибка сегментирования (segmentation failed, segmentation error). Что делать?

Скорее все изменился ваш IP. Проверьте в Личном кабинете.

2.15. У меня Linux. А-Парсер запустился, но в браузере не открывается. Как решить?

Проверьте фаервол - скорее всего он блокирует доступ.

2.16. У меня Windows 7. А-Парсер запустился, но в браузере не открывается и в диспетчере задач нет процесса Node.js. Как решить?

Нужно проверить обновления Windows и установить последние доступные. А именно нужно обновление Windows 7 SP1.

2.17. А-Парсер не запускается и в aparser.log пишется ошибка FATAL: padding_depad failed: Invalid argument provided. at ./Crypt/Mode/CBC.pm line 20.

Скорее всего возникает проблема с каким то заданием (папка /config/tasks/), в следствии ошибки диска (например если питание ПК было отключено без корректного завершения работы), подробнее можно узнать если запустить А-Парсер с флагом -morelogs

Решение: запуск А-Парсера с параметром -stoptasks. Если не помогло, то почистите весь /config/tasks/. Если и после этого проблема не устранилась, то установите парсер заново в новый каталог и подкиньте конфиг от старого (если он не поврежден).

3. Вопросы по настройке А-Парсера и других настройках

3.1. Как настроить проксичекер?

Детальная инструкция находится здесь: настройка прокси.

3.2. Нет живых проксей - почему?

Проверьте ваше соединение с интернет, а также правильность настройки проксичекера. Если все сделано правильно, то это значит, что на данный момент ваш список прокси не содержит рабочих серверов. Решение данной проблемы: либо использовать другие прокси, либо повторить попытку позже. Если Вы используете наши прокси, то проверьте IP адрес в Личном кабинете в разделе Прокси. Также возможен вариант, что ваш провайдер блокирует доступ к другим dns, попробуйте сделать описанные здесь шаги: http://a-parser.com/threads/1240/#post-3582

3.3. Как подключит антигейт?

Детальная инструкция по настройке антигейта тут.

3.4. Я изменил парамеры в настройках парсера, но они не применились. Почему?

Пресет по-умолчанию (default) нельзя изменить, если внесены какие либо изменения, нужно нажать Сохранить как новый пресет, и после этого использовать его в своем задании.

3.5. Можно ли изменить настройки работающего задания?

Можно, но не все. В выполняющемся задании можно нажать на паузу и там же в выпадающем меню выбрать Редактировать.

3.6. Как импортировать пресет?

Нажать кнопку рядом с полем выбора задания в Редакторе заданий. Детально тут.

3.7. Как настроить парсер чтобы он не использовал прокси?

В настройках нужного парсера снять галочку Use proxy.

3.8. У меня нет кнопки Добавить переопределение / Override option!

Эту опцию можно добавить непосредственно в Редакторе заданий. Опции парсера.

3.9. Как перезаписать в тот же файл с результатами?

При составлении задания выставить опцию Перезаписать файл.

3.10. Где поменять пароль на парсер?
3.11. Поставил 6 миллионов ключей на парсинг, так же указал, что бы домены были все уникальны. А как так сделать, чтобы когда я поставлю новые 6 миллионов ключей, записывались только уникальные домены не перессекающиеся с прошлим парсингом?

Необходимо воспользоваться опцией Сохранять уникализацию при составлении первого задания, и указать сохраненную базу во втором. Детально в Дополнительные опции редактора заданий.

3.12. Как обойти ограничение в 1000 результатов для гугла?

Воспользуйтесь опцией Спарсить все результаты / Parse all results.

3.13. Как обойти ограничение в 1024 потока на линукс?
3.14. Какой лимит потоков на Windows?

До 10000 потоков.

3.15. Как сделать запросы уникальными?

Использовать опцию Уникальные запросы в блоке Запросы в Редакторе заданий. опция Уникальные запросы

3.16. Как отключить проверку проксей?

В Настройки - Настройки проксичекера выбрать нужный проксичекер и добавить галку Не проверять прокси. Сохранить и выбрать сохраненный пресет.

3.17. Что такое Proxy ban time? Могу я постаивть в нем 0?

Время бана прокси в секундах. Да, можете.

3.18. Какая разница между Exact Domain и Top Level Domain в парсере SE::Google::PositionSE::Google::Position

Exact Domain - это строгое соответствие, т.е. если в выдаче www.domain.com, а мы ищем domain.com, то соответствия не будет. Top Level Domain сверяет весь топ домен, т.е. здесь будет соответствие.

3.19. Если запускать тестовый парсинг - все работает, если обычный - получаю ошибку Some error.

Скорее всего проблема в днс, попробуйте выполнить эту инструкцию по настройке днс.

3.20. Где задается Формат результата?
3.21. В SE::GoogleSE::Google отсутствует нидерландский язык, хотя в настройках Гугла он есть. Почему?

Нидерландский язык это Dutch, он есть в списке. Детально в улучшении по добавлении нидерландского языка.

4. Вопросы по парсингу и ошибках во время парсинга

4.1. Что такое потоки?

Все современные процессоры могут выполнять задачи в несколько потоков, что значительно увеличивает скорость их выполнения. Для сравнения можно привести обычный автобус, который за единицу времени перевозит какое-то кол-во людей - это будет обычная, однопоточная обработка, и двухэтажный автобус, который за то же время перевозит в два раза больше людей - это будет многопоточная обработка. A-Parser может обрабатывать одновременно до 10000 потоков.

4.2. Задание не запускается - пишет Some Error - почему?

Проверьте IP адрес в Личном кабинете.

4.3. Все запросы уходят в неудачные, что делать?

Скорее всего неправильно составлено задание либо используется неверный формат запроса. Также проверьте есть ли живые прокси. Еще можно попробовать увеличить опцию Request retries (детальнее тут: неудачные запросы).

4.4. Сколько аккаунтов нужно зарегистрировать чтобы спарсить 1 000 000 ключевых слов с SE::Yandex::WordstatSE::Yandex::Wordstat?

Нельзя точно сказать сколько нужно аккаунтов, так как аккаунт может перестать быть годным через неизвестное количество запросов. Но всегда можно зарегистрировать новые аккаунты используя парсер SE::Yandex::RegisterSE::Yandex::Register или просто добавить существующие аккаунты в файл files/SE-Yandex/accounts.txt.

4.5. Не запускается задание, пишет Error: Lock 100 threads failed(20 of limit 100 used) что делать?

Необходимо повысить максимально доступное кол-во потоков в настройках парсера, или же снизить в настройках задания. Детально в Настройки.

4.6. Можно ли запустить 2 задания одновременно?

Да, A-Parser поддерживает выполнение нескольких заданий одновременно. Кол-во одновременно работающих заданий регулируется в Настройки - Общие настройки: Максимум активных заданий.

4.7. Где лежит файл с результатами?

На вкладке Очередь заданий, после окончания каждого задания, Вы можете скачать результаты работы. Физически они находятся в папке results.

4.8. Можно ли скачать файл с результатами если парсинг не закончен?

Нет, пока не закончен парсинг, результаты скачать нельзя. Но его можно скопировать из папки aparser/results при остановленном задании или на паузе.

4.9. Можно ли вашим парсером спарсить 1 000 000 ссылок по одному запросу?
4.10. Можно ли парсить Rank::CMSRank::CMS, Net::WhoisNet::Whois без прокси?
Rank::CMSRank::CMS - можно, и даже нужно. Net::WhoisNet::Whois - не желательно.
4.11. Как спарсить ссылки с гугла?

Необходимо использовать SE::GoogleSE::Google.

4.12. Может ли парсер ходить по ссылкам?

Да, это умеет делать парсер HTML::LinkExtractorHTML::LinkExtractor при использовании опции Парсить до уровня / Parse to level

4.13. Очень медленно парсит гугл что делать?

Первым делом нужно посмотреть логи задания, возможно все запросы неудачные. Если это так то нужно найти причину почему запросы неудачные и исправить. При парсинге c SE::GoogleSE::Google в логах задания часто неудачные попытки связанны с тем что Гугл показывает капчи, это нормально. Вы можете подключить Антигейт для обхода каптч, чтобы парсер не перебирал попытки. Также, есть статья где описаны факторы которые влияют на скорость парсинга и как они влияют: скорость и принцип работы парсеров.

4.14. Можно ли вашим парсером спарсить ссылки в которых текст только на японском языке?

Да, для этого необходимо в настройках парсера выставить необходимый язык, а также использовать японские ключевые слова.

4.15. Можно ли вашим парсером парсить ссылки только в доменной зоне .de или .ru

Да. Для этого нужно воспользоваться фильтром.

4.16. Как получить каждый результат в файле с новой строки?

При форматировании результата использовать \n. Пример:

$serp.format('$link\n')
4.17. Как спарсить топ10 сайтов с гугл?

Вот пресет:

eyJwcmVzZXQiOiJUT1AxMCIsInZhbHVlIjp7InByZXNldCI6IlRPUDEwIiwicGFy
c2VycyI6W1siU0U6Okdvb2dsZSIsImRlZmF1bHQiLHsidHlwZSI6Im92ZXJyaWRl
IiwiaWQiOiJwYWdlY291bnQiLCJ2YWx1ZSI6MX0seyJ0eXBlIjoib3ZlcnJpZGUi
LCJpZCI6ImxpbmtzcGVycGFnZSIsInZhbHVlIjoxMH0seyJ0eXBlIjoib3ZlcnJp
ZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfV1dLCJyZXN1bHRzRm9y
bWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0
c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9uYWxG
b3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVlcnlGb3JtYXQiOlsi
JHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmll
cyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2Us
InF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZX0sInJlc3VsdHNPcHRp
b25zIjp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1
ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIs
InJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1
aWxkZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpbXX19

Как импортировать пример в А-Парсер.

4.18. Добавляю задание, перехожу во вкладку Очередь заданий - а его там нет! Почему?

Либо допущена ошибка при составлении задания, либо оно уже выполнено и перешло в Завершенные.

4.19. Пишет что файл не в utf-8, но я его не менял он и так utf-8, что делать?

Проверьте еще раз. Также попробуйте все же изменить кодировку, например с помощью Notepad++.

4.20. В файле с результатами все в одну строку, хотя в задании ставил перенос строки - почему?

В дополнительных настройках А-Парсера нужно использовать перенос строки CRLF (Windows).

Но если вы уже спарсили без этой опции, то используйте для просмотра более продвинутый просмотрщик, например Notepad++.

4.21. Сколько времени уходит на проверку частотности запросов по Яндексу на 1 000 запросов ?

Данный показатель очень зависит от параметров задания, характеристик сервера, качества прокси и т.п., поэтому однозначного ответа дать невозможно.

4.22. Как мне настроить парсер чтобы в результате было запрос-ссылка?

Формат результата:

$p1.serp.format('$query: $link\n')

В результате будет:

запрос: ссылка 1
запрос: ссылка 2
запрос: ссылка 3
4.23. Как мне перепарсить неудачные запросы и где они хранятся?

Для того, чтобы неудачные запросы сохранялись, следует выбрать соответствующую опцию в блоке Запросы в Редакторе заданий. Неудачные запросы хранятся в queries\failed. Нужно создать новое задание и в качестве файла запросов указать файл с неудачными запросами.

4.24. Как избавиться от HTML тегов при парсинге текста?

Воспользуйтесь опцией Remove HTML tags в Конструкторе результатов.

4.25. Как сделать так чтобы парсились только домены?

Воспользуйтесь опцией Extract Domain в Конструкторе результатов.

4.26. Какой максимальный размер файла с запросами можно использовать в парсере?

Размеры файлов запросов и результатов ничем не ограничены и могут достигать терабайтных значений.

4.27. Почему, когда я ввожу текст в поле запросов, парсер выдает Queries length limited to 8192 characters?

Это происходит потому что длина запроса ограничена 8192 знаками. Чтобы использовать более длинные запросы, используйте файлы в качестве запросов.

4.28. Что значит Ожидающих потоков - 3 ?

Это значит, что нехватает прокси. Уменьшите кол-во потоков, либо увеличьте кол-во прокси.

4.29. В тестовом парсинге пишет 596 SOCKS proxy error: Hello read error(Connection reset by peer) (0 KB) и не парсит, почему?

Это свидетельствует о нерабочих прокси.

4.30. В чём разница между языком результатов и страной поиска в парсере гугла?

Разница следующая: страна поиска - это привязка результатов к конкретной стране. Например, если вы ищете купить окна с привязкой к конкретной стране, то в приоритете будут сайты, предлагающие купить окна именно в этой стране. А язык результатов - это то, на каком языке должны выдаваться результаты.

4.31. У меня не парсится определенный сайт. Что может быть?

Часто проблема в том, что происходит блокировка из-за старого юзерагента на стороне сервера. Решается новым юзер агентом или следующим кодом в параметре User agent:

[% tools.ua.random() %]
4.32. Парсер виснет, вылетает. В логе попадается строка syswrite: No space left on device

А-Парсеру не хватает места на жестком диске. Освободите больше места.

4.33. У меня парсер начал выдавать none в результатах (или явно неверный результат)

Возможно изменился формат выдачи в используемом сервисе. Проверьте в Задачах или в Версиях, возможно уже есть сообщение (решение) этой проблемы.

4.34. Постоянно появляется окно с надписью Failed fetch news
4.35. Как вывести n первых результатов поисковой выдачи?
4.36. Как отследить цепочку редиректов?
4.37. Как проверить проиндексированность ссылки на доноре?

Для таких целей существует отдельный парсер: Check::BackLinkCheck::BackLink. Детальнее в обсуждении.

4.38. Парсер вылетает на Linux. В логе присутствует такая запись: EV: error in callback (ignoring): syswrite() on closed filehandle at AnyEvent/Handle.pm line...

Скорее всего нужно протюнить число потоков, как написано в Документации:Тюнинг Linux для большего числа потоков.

4.39. Где можно посмотреть все возможные параметры для их использования через API?

Получение запроса API в интерфейсе.

Также, можно сгенерировать полный конфиг задания на JSON. Для этого нужно взять код задания и декодировать его из base64.

4.40. Я скачиваю картинки с помощью Net::HTTPNet::HTTP, но они почему-то все битые. Что делать?

1) Проверьте параметр Max body size - возможно нужно его увеличить. 2) Проверьте в настройках А-Парсера формат переноса строки: Дополнительные настройки - Перенос строки.

Для того, чтобы картинка не была битой, должен использоваться UNIX формат.

4.41. Как получить admin contact из WHOIS?

Такая задача легко решается с помощью функции Parse custom result и регулярного выражения. Детально в обсуждении.

4.42. Регулярное выражение для парсинга телефонов
4.43. Определение сайтов без мобильной версии
4.44. Как узнать имя ns-сервера?
4.45. Как спарсить ссылки на кэш Яндекса?
4.46. Как спарсить ссылки на все страницы сайта?
4.47. Как спарсить title со страницы?
4.48. Как спарсить все сайты в заданной доменной зоне?
4.49. Как собрать все url с параметрами?
4.50. Как отфильтровать результаты по нескольким признакам и разбить по ним в отчете?
4.51. Как упростить конструкцию фильтра?
4.52. Как сортировать по файлам в зависимости от результата?
4.53. Create new result directory every X number of files (English)
4.54. Первые шаги работы с WordStat'ом
4.55. Сбор текстовых блоков >1000 символов
4.56. Вывод определенного количества текста из страницы

Это тоже решается с помощью Template Toolkit. Детальнее в обсуждении.

4.57. Проверка конкуренции и вхождения в в заголовок в Google
4.58. Фильтрация по количеству вхождения запроса в анкор и сниппет
4.59. Как получить содержимое статьи в одну строчку?
4.60. Как сравнить две строковые даты?
4.61. Как парсить подсвеченные слова из сниппета?
4.62. Пример задания с использованием нескольких парсеров
4.63. Как перемешать строки в результате и как выводить рандомное кол-во результатов?
4.64. Как подписывать результат с помощью MD5?
4.65. Как преобразовать дату из Unix timestamp в строковое представление?
4.66. Parse to level, как парсить с ограничением?
4.67. Парсер падает на Linux при запуске задания. В логе такие строки: Can't call method "if_list" on an undefined value at IO/Interface/Simple.pm...

Необходимо в консоле выполнить команду:

apt-get --reinstall --purge install netbase
4.68. Ошибка Cannot init Parser: Error: Failed to launch the browser process! [0429/082706.472999:ERROR:zygote_host_impl_linux.cc(90)] Running as root without --no-sandbox is not supported...

Нужно запустить А-Парсер не от рута. А именно: от рут пользователя нужно создать нового юзера без рут прав(если есть такой, то просто используем его) и потом разрешить этому юзеру взаимодействовать с директорией А-Парсера, потом нужно залогиниться от нового пользователя и уже от него запускать.

Под пользователем root создать юзера, можно по вот этому гайду.

Чтобы разрешить созданному пользователю взаимодействовать с директорией А-Парсера, нужно дать пользователю права. Для этого заходим под root пользователем и командой даем права:

chown -R user:user aparser
4.69. Ошибка Cannot init Parser: Error: Failed to launch the browser process! [0429/102002.619437:FATAL:zygote_host_impl_linux.cc(117)] No usable sandbox! Update your kernel or see...

Под пользователем root выполнить команду:

sysctl -w kernel.unprivileged_userns_clone=1

Перезагрузка апарсера не требуется.

Для CentOS 7 решение в этой теме. Под root пользователем выполнить команду:

echo "user.max_user_namespaces=15000" >> /etc/sysctl.conf

Затем перезапустить sysctl командой:

sysctl -p
4.70. Ошибка JavaScript execution error(): Error: Failed to launch the browser process! /aparser/dist/nodejs/node_modules/puppeteer/.local-chromium/linux-884014/chrome-linux/chrome: error while loading shared libraries: libatk-1.0.so.0: cannot open shared object file: No such file or directory...

Ошибка возникает из-за отсутствия библиотек в ОС для работы Chrome.

Список нужный библиотек для работы Chrome можно найти в Chrome headless doesn't launch on UNIX.

4.71. Почему не разгадывается капча? В логе видно что от ксевила А-Парсер получил вопросительные знаки вместо ответа капчи

В настройках региона нужно заменить на русский. Нужно менять только на вкладке дополнительно. На разгадывание капчи это не влияет, но в самом хрумере будет проблема с кодировкой, если и там и там поменять. опция Уникальные запросы опция Уникальные запросы