Часто задаваемые вопросы
1. Вопросы связанные с демо, оплатой и покупкой
1.1. Как скачать результаты в Demo версии?
В Demo версии результаты работы не доступны для скачивания. Мы предоставляем их по вашим запросам. Пришлите ваши запросы и скажите, какой парсер вас интересует, а мы отправим вам результаты (в рамках демо их кол-во ограниченно).
1.2. Нужно ли доплачивать за что-то после покупки A-Parser?
Нет. Более детально: лицензии и дополнения, страница покупки.
1.3. Где, как можно оплатить прокси?
При покупке лицензии вам предоставляются бонусные прокси.
Lite - 20 потоков на 2 недели, Pro и Enterprise - 50 потоков на месяц.
Купить больше потоков или продлить вы можете в Личном кабинете на вкладке Магазин, подраздел Прокси.
1.4. Не могли бы вы мне настроить задание за деньги?
Техническая поддержка по вопросам связанным с работой А-Парсера предоставляется бесплатно. Насчет платной помощи в составлении заданий можно обращаться сюда: Платные услуги по составлению заданий, помощь с настройкой и обучение работы с A-Parser.
1.5. Могу ли я произвести оплату за парсер через банк Приват24? Через KIWI?
Перечень платежных систем, с которыми мы работаем, указан здесь: купить А-Парсер.
1.6. Если мне нужно спарсить только количество проиндексированных страниц в Яндексе, какой парсер мне лучше купить?
Для таких целей достаточно Lite-версии, но Pro более практична и гибкая в работе.
1.7. Где посмотреть сведения о моей лицензии?
1.8. Возможно ли купленные прокси использовать с нескольких ip?
Нет.
2. Вопросы по установке, запуску и обновлениях
2.1. Нажимаю на кнопку Download - а архив не скачивается. Что делать?
Проверте, есть ли у вас свободное место на жестком диске, отключите антивирус. Следуйте инструкции по установке. Также ознакомьтесь с Как начать работать.
2.2. Купил Enterprise версию, но устанавливается по прежнему PRO. Что делать?
Удалите предыдущую версию. В Members Area проверьте верно ли прописан ваш IP-адрес. Перед загрузкой нажмите кнопку Обновить. Скачайте более новую версию. Более детально в инструкции по установке.
2.3. Установил программу, а она не запускается, что делать?
Проверьте запущенные приложения, отключите антивирус, проверьте доступный объём свободной оперативной памяти. Также в Личном кабинете проверьте верно ли прописан ваш IP-адрес. Более детально: инструкции по установке.
2.4. Что делать если у меня динамический IP-адрес?
Ничего страшного, A-Parser поддерживает работу с динамическими IP-адресами. Просто каждый раз, когда он меняется, вам необходимо его прописывать в Members Area. Для того, чтобы избежать данных манипуляций, рекомендуется использовать статический IP-адрес.
2.5. Какие оптимальные параметры сервера, компьютера для установки парсера?
Все системные требования можно посмотреть здесь: системные требования.
2.6. Запустил задание. Парсер упал и больше не запускается что делать?
Необходимо остановить сервер, проверить, не висит ли процесс в памяти, и попробовать запустить еще раз. Так же можно попробовать запустить А-Парсер с остановкой всех заданий. Для этого нужно запустить с параметром -stoptasks. Детально про запуск с параметром.
2.7. Какой пароль вводить при открытии адреса 127.0.0.1:9091?
Если это первый запуск, то пароль пустой. Если не первый - то тот, который Вы задали. Если забыли пароль - сброс пароля.
2.8. В Личном кабинете ввожу свой IP, а он не меняется в поле Ваш текущий IP. Почему?
Поле Ваш текущий IP отображает IP который у вас сейчас действителен, и он не должен менятся. Это его Вы должны вписать в поле IP 1.
2.9. Могу ли я запустить одновременно две копии?
Запустить две копии на одной машине можно только если у них будет прописан разных порт в файле конфигурации.
Запустить два А-Парсера на разных машинах одновременно можно только если у вас приобретён дополнительный IP в Личном кабинете.
2.10. Есть ли у парсера привязка к железу?
Нет. Для контроля лицензий используется ваш IP.
2.11. Вопрос по обновлению - обновлять только .exe? config/config.db и files/Rank-CMS/apps.json - а для чего эти файлы?
Если иное не указано, то обновлять только .exe
. Первый файл для хранения конфигурации А-Парсера, а второй - это база для определения CMS и собственно работы самого парсера Rank::CMS.
2.12. У меня Win Server 2008 Web Edition - парсер не запускается...
На данной версии ОС А-парсер не будет работать. Единственный вариант - сменить ОС.
2.13. У меня 4-ядерный процессор. Почему А-Парсер использует только одно ядро?
A-Parser использует от 2х до 4х ядер, дополнительные ядра используется только при фильтрации, Конструкторе результатов, Parse custom result
2.14. У меня начала появляться ошибка сегментирования (segmentation failed, segmentation error). Что делать?
Скорее все изменился ваш IP. Проверьте в Личном кабинете.
2.15. У меня Linux. А-Парсер запустился, но в браузере не открывается. Как решить?
Проверьте фаервол - скорее всего он блокирует доступ.
2.16. У меня Windows 7. А-Парсер запустился, но в браузере не открывается и в диспетчере задач нет процесса Node.js. Как решить?
Нужно проверить обновления Windows и установить последние доступные. А именно нужно обновление Windows 7 SP1.
2.17. А-Парсер не запускается и в aparser.log пишется ошибка FATAL: padding_depad failed: Invalid argument provided. at ./Crypt/Mode/CBC.pm line 20.
Скорее всего возникает проблема с каким то заданием (папка /config/tasks/
), в следствии ошибки диска (например если питание ПК было отключено без корректного завершения работы), подробнее можно узнать если запустить А-Парсер с флагом -morelogs
Решение: запуск А-Парсера с параметром -stoptasks. Если не помогло, то почистите весь /config/tasks/
. Если и после этого проблема не устранилась, то установите парсер заново в новый каталог и подкиньте конфиг от старого (если он не поврежден).
3. Вопросы по настройке А-Парсера и других настройках
3.1. Как настроить проксичекер?
Детальная инструкция находится здесь: настройка прокси.
3.2. Нет живых проксей - почему?
Проверьте ваше соединение с интернет, а также правильность настройки проксичекера. Если все сделано правильно, то это значит, что на данный момент ваш список прокси не содержит рабочих серверов. Решение данной проблемы: либо использовать другие прокси, либо повторить попытку позже. Если Вы используете наши прокси, то проверьте IP адрес в Личном кабинете в разделе Прокси. Также возможен вариант, что ваш провайдер блокирует доступ к другим dns, попробуйте сделать описанные здесь шаги: http://a-parser.com/threads/1240/#post-3582
3.3. Как подключит антигейт?
Детальная инструкция по настройке антигейта тут.
3.4. Я изменил парамеры в настройках парсера, но они не применились. Почему?
Пресет по-умолчанию (default) нельзя изменить, если внесены какие либо изменения, нужно нажать Сохранить как новый пресет, и после этого использовать его в своем задании.
3.5. Можно ли изменить настройки работающего задания?
Можно, но не все. В выполняющемся задании можно нажать на паузу и там же в выпадающем меню выбрать Редактировать.
3.6. Как импортировать пресет?
Нажать кнопку рядом с полем выбора задания в Редакторе заданий. Детально тут.
3.7. Как настроить парсер чтобы он не использовал прокси?
В настройках нужного парсера снять галочку Use proxy.
3.8. У меня нет кнопки Добавить переопределение / Override option!
Эту опцию можно добавить непосредственно в Редакторе заданий. Опции парсера.
3.9. Как перезаписать в тот же файл с результатами?
При составлении задания выставить опцию Перезаписать файл.
3.10. Где поменять пароль на парсер?
3.11. Поставил 6 миллионов ключей на парсинг, так же указал, что бы домены были все уникальны. А как так сделать, чтобы когда я поставлю новые 6 миллионов ключей, записывались только уникальные домены не перессекающиеся с прошлим парсингом?
Необходимо воспользоваться опцией Сохранять уникализацию при составлении первого задания, и указать сохраненную базу во втором. Детально в Дополнительные опции редактора заданий.
3.12. Как обойти ограничение в 1000 результатов для гугла?
Воспользуйтесь опцией Спарсить все результаты / Parse all results.
3.13. Как обойти ограничение в 1024 потока на линукс?
3.14. Какой лимит потоков на Windows?
До 10000 потоков.
3.15. Как сделать запросы уникальными?
Использовать опцию Уникальные запросы в блоке Запросы в Редакторе заданий.
3.16. Как отключить проверку проксей?
В Настройки - Настройки проксичекера выбрать нужный проксичекер и добавить галку Не проверять прокси. Сохранить и выбрать сохраненный пресет.
3.17. Что такое Proxy ban time? Могу я постаивть в нем 0?
Время бана прокси в секундах. Да, можете.
3.18. Какая разница между Exact Domain и Top Level Domain в парсере SE::Google::Position
Exact Domain - это строгое соответствие, т.е. если в выдаче www.domain.com, а мы ищем domain.com, то соответствия не будет. Top Level Domain сверяет весь топ домен, т.е. здесь будет соответствие.
3.19. Если запускать тестовый парсинг - все работает, если обычный - получаю ошибку Some error.
Скорее всего проблема в днс, попробуйте выполнить эту инструкцию по настройке днс.
3.20. Где задается Формат результата?
3.21. В SE::Google отсутствует нидерландский язык, хотя в настройках Гугла он есть. Почему?
Нидерландский язык это Dutch, он есть в списке. Детально в улучшении по добавлении нидерландского языка.
4. Вопросы по парсингу и ошибках во время парсинга
4.1. Что такое потоки?
Все современные процессоры могут выполнять задачи в несколько потоков, что значительно увеличивает скорость их выполнения. Для сравнения можно привести обычный автобус, который за единицу времени перевозит какое-то кол-во людей - это будет обычная, однопоточная обработка, и двухэтажный автобус, который за то же время перевозит в два раза больше людей - это будет многопоточная обработка. A-Parser может обрабатывать одновременно до 10000 потоков.
4.2. Задание не запускается - пишет Some Error - почему?
Проверьте IP адрес в Личном кабинете.
4.3. Все запросы уходят в неудачные, что делать?
Скорее всего неправильно составлено задание либо используется неверный формат запроса. Также проверьте есть ли живые прокси. Еще можно попробовать увеличить опцию Request retries (детальнее тут: неудачные запросы).
4.4. Сколько аккаунтов нужно зарегистрировать чтобы спарсить 1 000 000 ключевых слов с SE::Yandex::Wordstat?
Нельзя точно сказать сколько нужно аккаунтов, так как аккаунт может перестать быть годным через неизвестное количество запросов. Но всегда можно зарегистрировать новые аккаунты используя парсер SE::Yandex::Register или просто добавить существующие аккаунты в файл files/SE-Yandex/accounts.txt.
4.5. Не запускается задание, пишет Error: Lock 100 threads failed(20 of limit 100 used) что делать?
Необходимо повысить максимально доступное кол-во потоков в настройках парсера, или же снизить в настройках задания. Детально в Настройки.
4.6. Можно ли запустить 2 задания одновременно?
Да, A-Parser поддерживает выполнение нескольких заданий одновременно. Кол-во одновременно работающих заданий регулируется в Настройки - Общие настройки: Максимум активных заданий.
4.7. Где лежит файл с результатами?
На вкладке Очередь заданий, после окончания каждого задания, Вы можете скачать результаты работы. Физически они находятся в папке results.
4.8. Можно ли скачать файл с результатами если парсинг не закончен?
Нет, пока не закончен парсинг, результаты скачать нельзя. Но его можно скопировать из папки aparser/results при остановленном задании или на паузе.
4.9. Можно ли вашим парсером спарсить 1 000 000 ссылок по одному запросу?
Да, используя опцию Спарсить все результаты / Parse all results.
4.10. Можно ли парсить Rank::CMS, Net::Whois без прокси?
4.11. Как спарсить ссылки с гугла?
Необходимо использовать SE::Google.
4.12. Может ли парсер ходить по ссылкам?
Да, это умеет делать парсер HTML::LinkExtractor при использовании опции Парсить до уровня / Parse to level
4.13. Очень медленно парсит гугл что делать?
Первым делом нужно посмотреть логи задания, возможно все запросы неудачные. Если это так то нужно найти причину почему запросы неудачные и исправить. При парсинге c SE::Google в логах задания часто неудачные попытки связанны с тем что Гугл показывает капчи, это нормально. Вы можете подключить Антигейт для обхода каптч, чтобы парсер не перебирал попытки. Также, есть статья где описаны факторы которые влияют на скорость парсинга и как они влияют: скорость и принцип работы парсеров.
4.14. Можно ли вашим парсером спарсить ссылки в которых текст только на японском языке?
Да, для этого необходимо в настройках парсера выставить необходимый язык, а также использовать японские ключевые слова.
4.15. Можно ли вашим парсером парсить ссылки только в доменной зоне .de или .ru
Да. Для этого нужно воспользоваться фильтром.
4.16. Как получить каждый результат в файле с новой строки?
При форматировании результата использовать \n
. Пример:
$serp.format('$link\n')
4.17. Как спарсить топ10 сайтов с гугл?
Вот пресет:
eyJwcmVzZXQiOiJUT1AxMCIsInZhbHVlIjp7InByZXNldCI6IlRPUDEwIiwicGFy
c2VycyI6W1siU0U6Okdvb2dsZSIsImRlZmF1bHQiLHsidHlwZSI6Im92ZXJyaWRl
IiwiaWQiOiJwYWdlY291bnQiLCJ2YWx1ZSI6MX0seyJ0eXBlIjoib3ZlcnJpZGUi
LCJpZCI6ImxpbmtzcGVycGFnZSIsInZhbHVlIjoxMH0seyJ0eXBlIjoib3ZlcnJp
ZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfV1dLCJyZXN1bHRzRm9y
bWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0
c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9uYWxG
b3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVlcnlGb3JtYXQiOlsi
JHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmll
cyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2Us
InF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZX0sInJlc3VsdHNPcHRp
b25zIjp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1
ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIs
InJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1
aWxkZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpbXX19
4.18. Добавляю задание, перехожу во вкладку Очередь заданий - а его там нет! Почему?
Либо допущена ошибка при составлении задания, либо оно уже выполнено и перешло в Завершенные.
4.19. Пишет что файл не в utf-8, но я его не менял он и так utf-8, что делать?
Проверьте еще раз. Также попробуйте все же изменить кодировку, например с помощью Notepad++.
4.20. В файле с результатами все в одну строку, хотя в задании ставил перенос строки - почему?
В дополнительных настройках А-Парсера нужно использовать перенос строки CRLF (Windows)
.
Но если вы уже спарсили без этой опции, то используйте для просмотра более продвинутый просмотрщик, например Notepad++.
4.21. Сколько времени уходит на проверку частотности запросов по Яндексу на 1 000 запросов ?
Данный показатель очень зависит от параметров задания, характеристик сервера, качества прокси и т.п., поэтому однозначного ответа дать невозможно.
4.22. Как мне настроить парсер чтобы в результате было запрос-ссылка?
Формат результата:
$p1.serp.format('$query: $link\n')
В результате будет:
запрос: ссылка 1
запрос: ссылка 2
запрос: ссылка 3
4.23. Как мне перепарсить неудачные запросы и где они хранятся?
Для того, чтобы неудачные запросы сохранялись, следует выбрать соответствующую опцию в блоке Запросы в Редакторе заданий. Неудачные запросы хранятся в queries\failed. Нужно создать новое задание и в качестве файла запросов указать файл с неудачными запросами.
4.24. Как избавиться от HTML тегов при парсинге текста?
Воспользуйтесь опцией Remove HTML tags в Конструкторе результатов.
4.25. Как сделать так чтобы парсились только домены?
Воспользуйтесь опцией Extract Domain в Конструкторе результатов.
4.26. Какой максимальный размер файла с запросами можно использовать в парсере?
Размеры файлов запросов и результатов ничем не ограничены и могут достигать терабайтных значений.
4.27. Почему, когда я ввожу текст в поле запросов, парсер выдает Queries length limited to 8192 characters?
Это происходит потому что длина запроса ограничена 8192 знаками. Чтобы использовать более длинные запросы, используйте файлы в качестве запросов.
4.28. Что значит Ожидающих потоков - 3 ?
Это значит, что нехватает прокси. Уменьшите кол-во потоков, либо увеличьте кол-во прокси.
4.29. В тестовом парсинге пишет 596 SOCKS proxy error: Hello read error(Connection reset by peer) (0 KB) и не парсит, почему?
Это свидетельствует о нерабочих прокси.
4.30. В чём разница между языком результатов и страной поиска в парсере гугла?
Разница следующая: страна поиска - это привязка результатов к конкретной стране. Например, если вы ищете купить окна
с привязкой к конкретной стране, то в приоритете будут сайты, предлагающие купить окна именно в этой стране. А язык результатов - это то, на каком языке должны выдаваться результаты.
4.31. У меня не парсится определенный сайт. Что может быть?
Часто проблема в том, что происходит блокировка из-за старого юзерагента на стороне сервера. Решается новым юзер агентом или следующим кодом в параметре User agent:
[% tools.ua.random() %]
4.32. Парсер виснет, вылетает. В логе попадается строка syswrite: No space left on device
А-Парсеру не хватает места на жестком диске. Освободите больше места.
4.33. У меня парсер начал выдавать none в результатах (или явно неверный результат)
4.34. Постоянно появляется окно с надписью Failed fetch news
4.35. Как вывести n первых результатов поисковой выдачи?
4.36. Как отследить цепочку редиректов?
4.37. Как проверить проиндексированность ссылки на доноре?
Для таких целей существует отдельный парсер: Check::BackLink. Детальнее в обсуждении.
4.38. Парсер вылетает на Linux. В логе присутствует такая запись: EV: error in callback (ignoring): syswrite() on closed filehandle at AnyEvent/Handle.pm line...
Скорее всего нужно протюнить число потоков, как написано в Документации:Тюнинг Linux для большего числа потоков.
4.39. Где можно посмотреть все возможные параметры для их использования через API?
Получение запроса API в интерфейсе.
Также, можно сгенерировать полный конфиг задания на JSON. Для этого нужно взять код задания и декодировать его из base64.
4.40. Я скачиваю картинки с помощью Net::HTTP, но они почему-то все битые. Что делать?
1) Проверьте параметр Max body size - возможно нужно его увеличить. 2) Проверьте в настройках А-Парсера формат переноса строки: Дополнительные настройки - Перенос строки.
Для того, чтобы картинка не была битой, должен использоваться UNIX формат.
4.41. Как получить admin contact из WHOIS?
Такая задача легко решается с помощью функции Parse custom result и регулярного выражения. Детально в обсуждении.
4.42. Регулярное выражение для парсинга телефонов
4.43. Определение сайтов без мобильной версии
4.44. Как узнать имя ns-сервера?
4.45. Как спарсить ссылки на кэш Яндекса?
4.46. Как спарсить ссылки на все страницы сайта?
4.47. Как спарсить title со страницы?
4.48. Как спарсить все сайты в заданной доменной зоне?
4.49. Как собрать все url с параметрами?
4.50. Как отфильтровать результаты по нескольким признакам и разбить по ним в отчете?
4.51. Как упростить конструкцию фильтра?
4.52. Как сортировать по файлам в зависимости от результата?
4.53. Create new result directory every X number of files (English)
4.54. Первые шаги работы с WordStat'ом
4.55. Сбор текстовых блоков >1000 символов
4.56. Вывод определенного количества текста из страницы
Это тоже решается с помощью Template Toolkit. Детальнее в обсуждении.
4.57. Проверка конкуренции и вхождения в в заголовок в Google
4.58. Фильтрация по количеству вхождения запроса в анкор и сниппет
4.59. Как получить содержимое статьи в одну строчку?
4.60. Как сравнить две строковые даты?
4.61. Как парсить подсвеченные слова из сниппета?
4.62. Пример задания с использованием нескольких парсеров
4.63. Как перемешать строки в результате и как выводить рандомное кол-во результатов?
4.64. Как подписывать результат с помощью MD5?
4.65. Как преобразовать дату из Unix timestamp в строковое представление?
4.66. Parse to level, как парсить с ограничением?
4.67. Парсер падает на Linux при запуске задания. В логе такие строки: Can't call method "if_list" on an undefined value at IO/Interface/Simple.pm...
Необходимо в консоле выполнить команду:
apt-get --reinstall --purge install netbase
4.68. Ошибка Cannot init Parser: Error: Failed to launch the browser process! [0429/082706.472999:ERROR:zygote_host_impl_linux.cc(90)] Running as root without --no-sandbox is not supported...
Нужно запустить А-Парсер не от рута. А именно: от рут пользователя нужно создать нового юзера без рут прав(если есть такой, то просто используем его) и потом разрешить этому юзеру взаимодействовать с директорией А-Парсера, потом нужно залогиниться от нового пользователя и уже от него запускать.
Под пользователем root
создать юзера, можно по вот этому гайду.
Чтобы разрешить созданному пользователю взаимодействовать с директорией А-Парсера, нужно дать пользователю права. Для этого заходим под root пользователем и командой даем права:
chown -R user:user aparser
4.69. Ошибка Cannot init Parser: Error: Failed to launch the browser process! [0429/102002.619437:FATAL:zygote_host_impl_linux.cc(117)] No usable sandbox! Update your kernel or see...
Под пользователем root
выполнить команду:
sysctl -w kernel.unprivileged_userns_clone=1
Перезагрузка апарсера не требуется.
Для CentOS 7 решение в этой теме.
Под root
пользователем выполнить команду:
echo "user.max_user_namespaces=15000" >> /etc/sysctl.conf
Затем перезапустить sysctl
командой:
sysctl -p
4.70. Ошибка JavaScript execution error(): Error: Failed to launch the browser process! /aparser/dist/nodejs/node_modules/puppeteer/.local-chromium/linux-884014/chrome-linux/chrome: error while loading shared libraries: libatk-1.0.so.0: cannot open shared object file: No such file or directory...
Ошибка возникает из-за отсутствия библиотек в ОС для работы Chrome.
Список нужный библиотек для работы Chrome можно найти в Chrome headless doesn't launch on UNIX.
4.71. Почему не разгадывается капча? В логе видно что от ксевила А-Парсер получил вопросительные знаки вместо ответа капчи
В настройках региона нужно заменить на русский. Нужно менять только на вкладке дополнительно. На разгадывание капчи это не влияет, но в самом хрумере будет проблема с кодировкой, если и там и там поменять.