1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Краткий help

Тема в разделе "A-Poster 2 - форум поддержки", создана пользователем Support, 5 июн 2015.

  1. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.544
    Симпатии:
    2.163
    1. Config

    Скриншот вкладки Config
    • Install new db - устанавливает новую базу, все настройки устанавливаются на дефолтные, очередь очищается
    • New admin password - устанавливает новый пароль на A-Poster, если не заполнять пароль останется прежним
    • Auth session timeout - устанавливает максимальное время не активности админа, перед тем как он будет разлогинен
    • Script dir - полный путь до папки с A-Poster'ом
    • Proxy url - полная ссылка до файла proxy.php. Файл можно переносить на другой сервер, можно менять его имя, главное не забыть отразить изменения в конфиге.
    • Bases dir - полный путь до папки с базами. В случае если на одном сервере установлено несколько копий A-Poster'а, то можно использовать одну общую папку с базами
    • Server IP - IP-адрес сервера с которого уходят коннекты
    • External IP - внешний IP-адрес сервера для проверки прокси на анонимность
    • Threads count - количество физических потоков для обработки ресурсов.
    • Async threads count - количество асинхронных(т.е. виртуальных) потоков на каждый физический поток
    • Proxy async threads count - количество асинхронных потоков для проксичекера(у проксичекера всегда один физический поток)
    • Task per child - через какое количество ресурсов пересоздать поток. В связи с очень малым потреблением памяти параметр почти неактуален. Рекомендуются значения не ниже 10000.
    • Threads start interval - интервал задержки между запуском потоков, из-за малого числа физических потоков параметр почти неактуален(менять нет смысла).
    • Connect timeout - таймаут на подключение к ресурсу(нормальные ресурсы откликаются через 0-1 секунду).
    • Get timeout - таймаут на чтение страницы ресурса.
    • Proxy type - тип используемых проксей - HTTP или SOCKS5.
    • Proxy timeout - таймаут на отклик прокси, для проксичекера.
    • Proxy check interval - интервал между перепроверками прокси(проверяются все доступные прокси, потом ждёт интервал и продолжает проверять)
    • Proxy load interval - интервал между перекачками проксей с прокси листов
    • Max page size - максимальный размер страницы для закачки, страницы большего размера будут обрезаны
    • Proxy fail - максимальное количество ошибок проксей на одну операцию
    • Minimum alive proxy - минимальное количество живых проксей для начала работы, используется чтобы не дать в большое число потоков подключиться к одной единственной живой прокси
    • Max links - максимальное количество ссылок по которым A-Poster будет переходить при поиске формы и при поиске поста
    • Min rating - минимальный рейтинг формы, после которого форма считается подходящей
    • Confirm captcha - включает подтверждение текстовых каптч
    • Delete nofollow(Check active) - не учитывает ссылки с параметром nofollow при поиске активных ссылок
    • Save undefined fields - сохраняет не определившиеся поля в файл files/undefined_fields.txt
    • Only anonymous proxy - определяет использовать только анонимные прокси или любые
    • Load proxy from sites - определяет надо ли загружать прокси с сайтов указанных в files/proxy_sites.txt, и определяет способ загрузки - Add добавляет уникальные прокси в общий список, Replace - заменяет старый список новым. Рекомендуется использовать Replace, иначе список может быстро разрастись плохими проксями
    • Show process name - параметр не влияющий на работу скрипта, определяет показывать или нет псевдо-имена процессов, удобно при мониторинге в шелле через top\ps
    • Ignore longtime resources at end - позволяет игнорировать затяжные ресурсы когда обработано 99% базы и текущая скорость равна 0. Задание будет принудительно завершено. Рекомендуется использовать эту функцию

    Примечания:
    1. Количество потоков считается путём умножения параметров Threads count и Async threads count. Т.е. по дефолту будет 10х20 = 200 потоков.
    2. Оптимальное количество и конфигурация потоков определяется в основном опытным путём
    3. На слабых серверах при большой нагрузке рекомендуется попробовать такие конфигурации как 2х50, 3х50, 3х60 и подобные.
    2. Files manager

    Скриншот вкладки Files manager
    • alive_proxy.txt - после каждой итерации проверки прокси скрипт сбрасывает в этот файл живые прокси. Так же при старте нового задания прокси из alive_proxy.txt будут проверяться первыми, потом из proxy.txt
    • black_list.txt - файл блеклиста нежелательных ресурсов. Можно указывать вхождение строки, по одному значению на строку. Чтобы фильтровать базу на блеклист надо зайти в раздел Base manager
    • checkpost_eq.txt - файл соответствий для быстрой проверки на пост(прямой переход по соответствию). Для редактирования этого файла необходимо знание регулярных выражений
    • comments.txt, mails.txt, nicks.txt, urls.txt - файлы необходимы для спама связками(Spam queue).
    • fill.txt - определяет каким способом будут заполняться поля формы и несколько дополнительных параметров. Подробные комментарии даны внутри файла
    • proxy.txt - этот файл содержит прокси сервера для проверки. Если во время работы скрипта его изменить, то файл пересчитается на следующей итерации чека прокси
    • proxy_sites.txt - должен содержать прямые ссылки на странички с проксями.
      Поддерживает регулярные выражения при парсинге прокси, формат:
      http://site.com/||(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}):(\d{1,5}) , т.е. в первой скобке должен быть ip, во второй порт
    • proxy_blacklist.txt - блеклист для проксей(данные прокси не будут использоваться)
    • textcaptcha_regex.txt - файл для настройки обработки текстовых каптч. Для редактирования этого файла необходимо знание регулярных выражений
    • undefined_fields.txt - в этот файл записываются неопределённые поля и урл самой формы
    • user_agents.txt - указывается юзер агент используемый при составлении запросов, можно указать несколько по одному на строку
    3. New task

    Скриншот вкладки New task
    • Select base - определяет базу для данного задания. По умолчание показывает последнюю использованную базу
    • Select task - определяет вид задания:
      • Spam - спам по базе
      • Check - проверка базы на форму
      • Check active links - определение типов активных ссылок для каждого ресурса в базе и создание соответствующей базы(_active). Для этого будет проспамлено тестовое сообщение, произведён поиск поста и определение типа активной ссылки
      При проверке базы, новая база создастся в каталоге баз и будет иметь имя вида base_date_time_*.txt. Если при выполнении задание будет прервано(pause или ребут сервера), а потом опять возобновлено, то будут созданы новые базы(с целью избежания порчи предыдущих). Объединить базы после выполнения задания можно будет во вкладке Base manager.
    • Spam type - определяет вид спама:
      • Simple spam - простой спам, будет разослано сообщение указанное в форме снизу
      • Simple bulk spam - простой спам нескольких сообщений подряд, для добавления сообщения нажмите кнопку Add new job и заполните предложенную xml'ку
      • Spam queue - спам связками. В каталоге files расположены 4 файла: nicks.txt, mails.txt, urls.txt, comments.txt. Вы заполняете каждый файл по одному значению на строку. В очередь будет добавлено столько заданий, сколько связок получилось
      • My function - при подстановки значений будет использована внешняя функция, указанная в списке. Параметр x N определяет сколько сообщений подряд будет через My function. Готовые функции с описаниями можно найти в закрытом разделе форума.
    • Options - дополнительные настройки:
      • Check post - определяет делать ли проверку на пост. Параметр Min pr определяет минимальный Google PageRank страницы с постом. Параметр Max external links определяет максимальное количество внешних ссылок на странице с постом
      • Save forcheck base - определяет сохранять ли базу _forcheck, чтобы иметь возможность через какое то время проверить ещё раз базу на пост
      • Save parsed base - определяет сохранять ли распаршенную базу. Распаршенная база - база с закэшированной формой. По ней сразу отправляется запрос на форму, это увеличивает скорость работы. База имеет имя вида base_date_time_parsed.txt
      • Read only header - возможность читать только ответ сервера после постинга сообщения. Увеличивает скорость и снижает пробиваемость(т.к. в этом случае Preview формы обрабатываться не будут)
      • Save good base - определяет сохранять ли хорошую базу, т.е. базу с ответами от ресурсов 200 OK(в логах это Posted). База имеет имя вида base_date_time_good.txt
    • Proxy - определяет будут ли использоваться прокси:
      • Use proxy - использовать прокси всегда
      • Use proxy only for posting - использовать прокси только при постинге сообщения
      • Use proxy only for get form and posting - использовать прокси только при поиске формы и постинге сообщения
      • No proxy - не использовать прокси
    • Write log - определяет будут ли писаться логи
    • Quantification - квантификация задания, т.е. если указать число отличное от 1 то это задание добавиться n раз в очередь
    • Start\End - если Start отличен от 0 то будет обработана часть базы в диапазоне start - end
    • Name, E-mail, Url, Comment - no comments (;
    Примечания:
    1. В New task реализована система подсказок по сочетанию доступных параметров(недоступные параметры будут заблокированы для изменения). Должен быть включен Java script в браузере
    2. Если нет необходимости, то использование логов можно отключить - снизится нагрузка на диск. Вторым немаловажным фактором является то, что логи имеют довольно большой размер(порой несколько Гб) - диск может быстро забиться. Необходимо периодически очищать логи.
    4. Queue manager

    Скриншот вкладки Queue manager
    Queue manager - очередь скрипта, в ней отражаются все добавленные задания.
    В каждом задании отражены его настройки, которые можно изменить нажав кнопку Edit.
    Зелёным цветом помечается активное задание. Если изменять настройки активного задания или настройки в разделе Config, то для того чтобы они вступили в силу надо сделать Pause\Start.
    Ход выполнения задания отражается в нижней левой части активного задания:
    • Status - отражает текущий статус задания
    • Jobs - отражает количество пройдённых ресурсов/общее количество ресурсов, и процент выполнения
    • Good jobs - отражает количество успешных ресурсов и процент их от общего числа ресурсов. Параметр многофункциональный, и принимает разные значения:
      • Task type: Check - отражает количество успешных ресурсов где найдена форма
      • Task type: Spam - отражает количество успешно отправленных сообщений(сервер вернул ответ 200 ОК)
      • Options: Check post - отражает количество успешно размешенных сообщений(пост был найден)
    • Cur/Avg speed - отражает текущую/общую скорость обработки ресурсов в минуту
    • Proxy - отражает количество живых/общее проксей, и процент живых проксей
    Неактивные задания можно менять местами(кнопки Up\Down, или можно выделить 2 задания и нажать кнопку Switch - они поменяются местами). Можно удалить группу заданий - выделить несколько заданий, или отметить все(Select all) и нажать кнопку Delete Selected.
    После выполнения задания оно удаляется, результат выполнения записывается в лог-файл Complete log(вкладка View logs)

    5. Base manager

    Скриншот вкладки Base manager
    • Select Base - выбирает текущее базу. Справа отображается размер базы
    • Join with - определяет с какими базами будет соединена текущая база, для выбора нескольких баз зажмите CTRL
    • Make unique - удаляет дубликаты в базе
    • Make unique (domain) - удаляет дубликаты в базе по домену
    • Delete no http:// - удаляет строки не начинающиеся с http://
    • Add no http:// - если строка не начинается с http:// то http:// будет автоматически добавлен
    • Check black list - удаляет строки по вхождениям из files/black_list.txt
    • Delete old base - удаляет исходную базу
    • New file name - определяет имя новой базы
    6. View logs

    Скриншот вкладки View logs
    • Clear all logs - очищает все лог-файлы
    • do log - лог работы крона
    • complete log - лог завершившихся заданий
    Логи для конкретного задания имеют вид "date time", т.е. время старта задания. Далее навигация происходит по имени логфайла:
    • main - лог управляющего потока
    • proxychecker - лог работы проксичекера
    • proxyload - лог загрузки прокси с внешних списков
    • sthread_N - лог основных потоков, где N - номер потока
    7. Test spam

    Скриншот вкладки Test spam
    В этом разделе можно проверить правильность работы с определённым ресурсом. Постится предустановленное сообщение, пост происходит без прокси. Параметры Options эквивалентны таковым из New task

    8. Макросы

    При создании задания в поле Comment допускаются следующие макросы:
    • <keys>key1|key2|key3...</keys> - при каждом постинге будет случайно выбирать одно из слов(key1,key2,key3 и т.д.)
    • <url>link|anchor</url> - используется при работе с active базой, при каждом постинге будет подставляет нужный код(html,bbcode,text..) для конкретного ресурса
    • <_b_>...</_b_> - используется при работе с active базой, подставляет соответствующий код для конкретного типа ресурса(для html - <b></b>, для bbcode - )
    С версии 2.07 добавлены следующие макросы:
    • <file>file.txt</file> - в сообщении на место макроса подставляется строка из указанного файла, файл должен лежать в папке files/. С каждым следующем сообщением берется следующая строка из файла, при достижении конца файла начинает брать с начала.
    • <filerand>file.txt</filerand> - в сообщении на место макроса подставляется рандомная строка из указанного файла, файл должен лежать в папке files/. В каждое новое сообщение берется рандомная строка.
    9. Базы

    Небольшое пояснение по создаваемым базам:
    • _good - База создаётся если включить опцию Save good base. Она содержит ссылки при постинге в которые форма отдаёт ответ от сервера 200 ОК. Если на вход была база _active или _parsed будет так же создаваться good_active и good_parsed соответственно, сохраняя при этом свои свойства.
    • _parsed - База содержит в себе распаршенные(закешированные) формы. Т.е. при работе с этой базой запрос сразу будет идти на форму, тем самым повышается скорость и уменьшается трафик.
    • _goodspam - База содержит ссылки на формы, при постинге в которые был найден пост(галочка Check post).
    • _active - То же самое что _goodspam, только в найденном посте была найдена активная ссылка. База так же содержит информацию о типе активной ссылки. Работая с ней можно использовать специальный макрос чтобы A-Poster сам выбирал нужный код для конкретного ресурса. Базу можно получить сделав Check active links
    • _forcheck - База для проверки наличия сообщения через какой то промежуток времени.
    Базы могут быть одновременно нескольких типов, например active_parsed - т.е. она содержит как информацию о типе активной ссылки, так и распаршенную форму.
     
    #1 Support, 5 июн 2015
    Последнее редактирование: 10 янв 2016
  2. bigve

    bigve A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    23 июл 2015
    Сообщения:
    36
    Симпатии:
    4
    в каокм формате давать ссылки для постинга?
     
  3. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    при использовании active базы:
    Код:
    <url>link|anchor</url>
    
    при использовании обычных баз - bbcode + html
     

Поделиться этой страницей