Ir al contenido principal

Comprobadores de proxy

Esta sección muestra las estadísticas de funcionamiento de todos los proxycheckers. Cada proxychecker es un módulo que funciona constantemente (si está activado), el cual verifica los proxies y, por lo tanto, mantiene una lista actualizada de proxies activos.

Se puede añadir un número ilimitado de proxycheckers y seleccionar uno o varios de ellos para cada tarea o incluso para cada extractor en la tarea. De esta manera, es posible utilizar en una misma tarea unos proxies, por ejemplo, para la extracción de datos de Google y otros totalmente diferentes para Yandex.

Resumen del Proxy Checker

En la parte superior se muestra el número total de proxies activos y la cantidad de proxycheckers iniciados (en funcionamiento). Arriba a la derecha se encuentra el botón para añadir un nuevo proxychecker. Se detalla más sobre el procedimiento de adición de proxycheckers en la sección Configuración de proxy.

A continuación se presenta una lista de todos los proxycheckers existentes en forma de tarjetas con información sobre cada uno. En cada tarjeta se muestra la siguiente información:

  • Working path - carpeta con archivos del proxychecker en aparser/files/proxy
  • Update time - hora de la última verificación de la lista de proxies cargada
  • Cantidad de proxies en la cola de verificación y el número total de proxies cargados
  • Cantidad de proxies activos
  • Load state (Estado de carga) o fecha de la próxima carga desde las fuentes de proxies
  • Cantidad de fuentes desde las cuales se cargaron proxies con éxito la última vez y el número total de fuentes en este proxychecker
  • El estado actual de la verificación de proxies

La casilla de verificación Enabled junto a los botones de control de los proxycheckers permite activar/desactivar el proxychecker.

El primero en la lista de proxycheckers siempre es el proxychecker default. Este sirve como plantilla para nuevos proxycheckers y no se puede editar ni eliminar.

Estructura de archivos

Los archivos de trabajo del proxychecker se encuentran en la carpeta files/proxy/<nombre del proxychecker>:

  • proxy.txt - la carga de proxies se realiza desde este archivo, aquí se debe colocar la lista de proxies
  • sites.txt - en este archivo se debe colocar la lista de fuentes de proxies (enlaces a los proxies, un enlace por línea)
  • alive.txt - en este archivo se guardan los proxies activos cada 5 segundos si la opción correspondiente está activada
  • regex.txt - en este archivo se encuentra la lista de expresiones regulares para extraer proxies de fuentes externas (en formato de una expresión regular por línea, en $1 debe estar la dirección IP y en $2 el puerto)
nota

Si tiene enlaces a fuentes de proxies, indíquelos en el archivo sites.txt; el archivo proxy.txt debe dejarse vacío
Para el proxychecker "default", los archivos se encuentran en la raíz del directorio files/proxy/

Adición y configuración del proxychecker

Accedemos al menú "Proxychecker" y pulsamos "Añadir checker" o seleccionamos "Editar" en el menú desplegable de un proxychecker existente. Entramos en la página de configuración del proxychecker.

Añadir Proxy Checker

Si es necesario, establecemos el número requerido de hilos para la verificación de proxies (Hilos de verificación), seleccionamos el tipo de proxy (Tipo de proxy) y cambiamos otros ajustes. Los valores de los parámetros por defecto son adecuados para la mayoría de las tareas. Guardamos la configuración como un nuevo proxychecker. No se pueden cambiar ni guardar los ajustes del proxychecker default.

Las fuentes de proxies se indican en los archivos dentro de la carpeta con el nombre del proxychecker creado (files/proxy/.../):

  • enlaces en sites.txt
  • lista de proxies en proxy.txt
Fuentes de proxy en el directorio de trabajo

Proxies con acceso por IP

Los proxies con acceso por IP se configuran de manera similar.

Lista de proxies con el mismo usuario y contraseña para todos

Este método es adecuado para casos en los que la lista de proxies tiene el formato ip:port y el usuario/contraseña es el mismo para toda la lista de proxies.

En la configuración del checker indicamos:

  • login
  • password
  • Usar autorización de proxy
Configuración: lista de proxies con el mismo usuario y contraseña para todos los proxies

Lista de proxies con diferentes contraseñas para cada proxy

En este caso, la lista de proxies debe tener el formato usuario:contraseña@ip:puerto; en la configuración del checker basta con indicar Use proxy authorization (Usar autorización de proxy).

Configuración: lista de proxies con diferentes contraseñas para cada proxy

⏩ Video: conexión de proxy con autorización

Selección de proxychecker para una tarea

nota

Estos ajustes son necesarios para diferenciar el trabajo de las tareas con diversos proxycheckers; puede saltarse esta sección si necesita usar todos los proxies disponibles en todas las tareas.

Accedemos al menú Settings -> Threads settings, seleccionamos el ajuste preestablecido deseado o creamos uno nuevo (botón Add new (Añadir nuevo)).

En el campo Proxy Checkers (Proxycheckers) seleccionamos uno o varios proxycheckers (para ser utilizados, los proxycheckers deben estar activados) y guardamos (Save (Guardar)). También se pueden seleccionar todos los proxycheckers a la vez con All (valor por defecto).

Selección de un proxy checker para una tarea

Ahora se puede utilizar la Configuración de hilos creada, con los proxies especificados en sus tareas, seleccionándola en el Editor de tareas.

Seleccionar configuración de hilos

También se puede redefinir el proxychecker en cada extractor mediante la función de anulación de ajustes - Proxy Checker.

Anular Proxy Checker

La opción Exclude from "All" en la configuración del proxychecker permite excluir sus proxies de la circulación general en A-Parser. Esta opción es útil en casos donde es necesario que ciertos proxies estén disponibles solo desde tareas específicas o solo para extractores específicos:

  • para la tarea es necesario seleccionar obligatoriamente el proxychecker excluido
  • para un extractor específico es necesario establecer en la configuración el uso del proxychecker excluido

Cambios en la lógica

Anteriormente, si en la tarea se seleccionaba un proxychecker específico y en el extractor se indicaba otro proxychecker, el extractor esperaba por el proxy. Ahora, los ajustes del extractor específico tienen mayor prioridad:

  • "All" - utiliza todos los proxies seleccionados para la tarea
  • proxychecker específico - lo utiliza, incluso si no está seleccionado en la tarea

Parámetros de los proxycheckers

Nombre del parámetroValor por defectoDescripción
Loading typeReplaceDetermina si se deben conservar los proxies cargados anteriormente o no; Add - siempre añade nuevos proxies a la lista general, Replace - sustituye los proxies antiguos por los nuevos cargados
Load threads count5Número de hilos para la carga de proxies desde sitios
Load interval30Intervalo entre la re-verificación completa de la lista de sitios
Load timeout30Tiempo de espera para la solicitud al sitio con proxies
Load max size524288Tamaño máximo de la página con proxies; si la página es mayor, se recorta al tamaño especificado
Load limit count0Límite del número de proxies a cargar, 0 para desactivar
No check proxiesPermite desactivar la verificación de proxies. Todos los proxies cargados se consideran automáticamente activos
Proxies typeHTTP, SOCKS5Selección de qué tipos de proxies verificar y en qué secuencia; si se indican simultáneamente HTTP y SOCKS, en caso de fallo en la verificación HTTP, el proxy será verificado nuevamente para el protocolo SOCKS
Check threads15Número de hilos para la verificación de proxies
Check urlhttp://work.a-poster.info:25000/Enlace al script de verificación de proxies; actualmente la verificación se realiza a través del servidor del extractor, en el futuro este comportamiento podría cambiar
Check interval30Intervalo entre re-verificaciones completas de todos los proxies
Check timeout5Tiempo de espera del proxy
Check max size5120Tamaño máximo de la página descargada durante la verificación del proxy
Check anonymousVerificar el anonimato del proxy; si se selecciona, es obligatorio indicar la External IP
External IPDirección IP externa de la computadora\servidor; debe indicarse si la opción Check anonymous está activada
Exclude from "All"Por defecto, en cada extractor se selecciona el valor "All" como proxychecker, es decir, se utilizan todos los proxycheckers disponibles. Si la opción está activada, el proxychecker será excluido de All.
Save alive proxies to fileNoGuardar proxies activos en el archivo files/proxy/alive.txt
Use proxy authorizationUsar autorización para proxies por usuario\contraseña
Authorization loginUsuario para la autorización
Authorization passwordContraseña para la autorización

Instalación del script de verificación en un hosting

nota

Por defecto, A-Parser verifica los proxies a través de su propio script de verificación, sin necesidad de instalar el script en su propio hosting.

Suba a su hosting o servidor el siguiente script PHP e indique el enlace al mismo en Check url:

<?php

print_r($_SERVER);
print_r($_POST);

?>