Pular para o conteúdo principal

Verificadores de Proxy

Esta seção exibe as estatísticas de operação de todos os proxycheckers. Cada proxychecker é um módulo em execução constante (se estiver ativado) que verifica proxies e, assim, mantém uma lista atualizada de proxies ativos.

É possível adicionar um número ilimitado de proxycheckers e selecionar um ou mais deles para cada tarefa ou até mesmo para cada scraper em uma tarefa. Dessa forma, é possível usar em uma mesma tarefa alguns proxies para a extração de dados do Google, por exemplo, e outros completamente diferentes para o Yandex.

Visão Geral do Proxychecker

No topo, é exibido o número total de proxies ativos e a quantidade de proxycheckers iniciados (em execução). No canto superior direito, há um botão para adicionar um novo proxychecker. Mais detalhes sobre o procedimento de adição de proxycheckers são descritos na seção Configuração de proxy.

Abaixo, encontra-se a lista de todos os proxycheckers existentes em forma de cartões com informações sobre cada um. Cada cartão exibe as seguintes informações:

  • Working path - pasta com arquivos do proxychecker em aparser/files/proxy
  • Update time - horário da última verificação da lista de proxies carregada
  • Quantidade de proxies na fila de verificação e o número total de proxies carregados
  • Quantidade de proxies ativos
  • Load state (Status de carregamento) ou a data do próximo carregamento a partir das fontes de proxy
  • Quantidade de fontes das quais os proxies foram carregados com sucesso pela última vez e o número total de fontes neste proxychecker
  • O status atual da verificação de proxies

A caixa de seleção Enabled (Ativado) ao lado dos botões de controle dos proxycheckers permite ativar/desativar o proxychecker.

O primeiro na lista de proxycheckers é sempre o proxychecker default. Ele serve como um modelo para novos proxycheckers e não pode ser editado ou excluído.

Estrutura de arquivos

Os arquivos de trabalho do proxychecker estão localizados na pasta files/proxy/<nome do proxychecker>:

  • proxy.txt - o carregamento de proxies ocorre a partir deste arquivo; é aqui que a lista de proxies deve ser colocada
  • sites.txt - neste arquivo deve ser colocada a lista de fontes de proxies (links para proxies, no formato de um link por linha)
  • alive.txt - neste arquivo, os proxies ativos são salvos a cada 5 segundos se a opção correspondente estiver ativada
  • regex.txt - este arquivo contém uma lista de expressões regulares para extrair proxies de fontes externas (no formato de uma expressão regular por linha, onde $1 deve ser o endereço IP e $2 a porta)
nota

Se você tiver links para fontes de proxy - indique-os no arquivo sites.txt, o arquivo proxy.txt deve ser deixado vazio
Para o proxychecker "default", os arquivos estão localizados na raiz do diretório files/proxy/

Adição e configuração do proxychecker

Acesse o menu "Proxy Checker" e clique em "Add checker" ou selecione "Edit" no menu suspenso de um proxychecker existente. Você será direcionado para a página de configuração do proxychecker.

Adicionando Proxychecker

Se necessário, defina a quantidade necessária de threads para verificação de proxies (Threads de verificação), escolha o tipo de proxy (Tipo de proxy) e altere outras configurações. Os valores padrão dos parâmetros são adequados para a maioria das tarefas. Salve as configurações como um novo proxychecker. Não é possível alterar e salvar as configurações do proxychecker default.

As fontes de proxy são especificadas em arquivos dentro da pasta com o nome do proxychecker criado (files/proxy/.../):

  • links em sites.txt
  • lista de proxies em proxy.txt
Fontes de proxy no diretório de trabalho

Proxies com acesso por IP

Proxies com acesso por IP são configurados de forma semelhante.

Lista de proxies com o mesmo login e senha para todos os proxies

Este método é adequado para casos em que a lista de proxies tem o formato ip:port e o login/senha é o mesmo para toda a lista de proxies

Nas configurações do checker, indique:

  • login
  • password
  • Usar autorização de proxy
Configuração: lista de proxies com o mesmo login e senha para todos os proxies

Lista de proxies com senhas diferentes para cada proxy

Neste caso, a lista de proxies deve ter o formato login:password@ip:port; nas configurações do checker, basta marcar Use proxy authorization (Usar autorização de proxy)

Configuração: lista de proxies com senhas diferentes para cada proxy

⏩ Vídeo: conexão de proxy com autorização

Escolha do proxychecker para a tarefa

nota

Estas configurações são necessárias para separar o trabalho de tarefas com diferentes proxycheckers; você pode pular esta seção se for necessário usar todos os proxies disponíveis em todas as tarefas

Acesse o menu Settings -> Config Presets, escolha o preset desejado ou crie um novo (botão Save as New (Adicionar novo)).

No campo Proxy Checkers (Proxycheckers), selecione um ou mais proxycheckers (para serem usados, os proxycheckers devem estar ativados) e salve (Save (Salvar)). Também é possível selecionar todos os proxycheckers de uma vez em All (valor padrão).

Escolha do proxychecker para a tarefa

Agora você pode usar a Configuração de threads criada, com os proxies definidos, em suas tarefas, selecionando-a no Editor de Tarefas.

Escolha da configuração de threads

Também é possível substituir o proxychecker em cada scraper usando a função de substituição - Proxy Checker.

Substituição do Proxychecker

A opção Exclude from "All" nas configurações do proxychecker permite excluir seus proxies da circulação geral no A-Parser. Esta opção é útil nos casos em que é necessário tornar certos proxies disponíveis apenas para tarefas específicas ou apenas para scrapers específicos:

  • para a tarefa, é necessário selecionar obrigatoriamente o proxychecker excluído
  • para um scraper específico, é necessário definir nas configurações o uso do proxychecker excluído

Mudanças na lógica

Anteriormente, se um proxychecker específico fosse selecionado na tarefa e outro proxychecker fosse indicado no scraper, o scraper aguardava pelos proxies. Agora, as configurações do scraper específico têm maior prioridade:

  • "All" - utiliza todos os proxies selecionados para a tarefa
  • proxychecker específico - utiliza-o, mesmo que não esteja selecionado na tarefa

Parâmetros dos proxycheckers

Nome do parâmetroValor padrãoDescrição
Loading typeReplaceDetermina se deve manter os proxies carregados anteriormente ou não; Add - sempre adiciona novos proxies à lista geral, Replace - substitui os proxies antigos pelos novos carregados
Load threads count5Número de threads para carregamento de proxies dos sites
Load interval30Intervalo entre a reverificação completa da lista de sites
Load timeout30Tempo limite (timeout) para a requisição ao site com proxies
Load max size524288Tamanho máximo da página com proxies; se a página for maior, ela será cortada para o tamanho definido
Load limit count0Limite da quantidade de proxies carregados, 0 para desativar
No check proxiesPermite desativar a verificação de proxies. Todos os proxies carregados são automaticamente considerados ativos
Proxies typeHTTP, SOCKS5Escolha de quais tipos de proxies verificar e em qual sequência; se HTTP e SOCKS forem indicados simultaneamente, em caso de falha na verificação HTTP, o proxy será verificado novamente para o protocolo SOCKS
Check threads15Número de threads para verificação de proxies
Check urlhttp://work.a-poster.info:25000/Link para o script de verificação de proxies; atualmente a verificação é feita através do servidor do scraper, no futuro este comportamento pode mudar
Check interval30Intervalo entre as reverificações completas de todos os proxies
Check timeout5Tempo limite (timeout) do proxy
Check max size5120Tamanho máximo da página baixada durante a verificação do proxy
Check anonymousVerificar anonimato do proxy; se selecionado, é obrigatório indicar o External IP
External IPEndereço IP externo do computador\servidor; deve ser indicado se a opção Check anonymous estiver ativada
Exclude from "All"Por padrão, em cada scraper, o valor "All" é selecionado como proxychecker, ou seja, todos os proxycheckers disponíveis são usados. Se a opção estiver ativada, o proxychecker será excluído de All.
Save alive proxies to fileNoSalvar proxies ativos no arquivo files/proxy/alive.txt
Use proxy authorizationUsar autorização para proxies por login\senha
Authorization loginLogin para autorização
Authorization passwordSenha para autorização

Instalação do script de verificação em hospedagem

nota

Por padrão, o A-Parser verifica os proxies através de seu próprio script de verificação, sem a necessidade de instalar o script em sua própria hospedagem

Carregue o seguinte script PHP em sua hospedagem ou servidor e indique o link para ele em Check url:

<?php

print_r($_SERVER);
print_r($_POST);

?>