FreeAI::Perplexity - Extractor del servicio de IA Perplexity

Descripción general del extractor
El extractor Perplexity es una herramienta moderna para recopilar información estructurada de uno de los motores de búsqueda de IA de más rápido crecimiento. Gracias a la integración con Perplexity, no solo obtiene listas de enlaces, sino respuestas actualizadas, concisas y relevantes basadas en una gran cantidad de fuentes, incluidos artículos científicos, blogs, foros y portales de noticias.
El extractor Perplexity admite consultas en lenguaje natural, incluidas aclaraciones, preguntas contextuales y construcciones anidadas. El extractor ofrece la posibilidad de extraer preguntas relacionadas, añadiéndolas automáticamente a la cola de consultas, ampliando así significativamente la cantidad de información recopilada.
La velocidad de procesamiento alcanza los 500–800 consultas por minuto gracias al modo de funcionamiento multihilo. Dependiendo de la configuración y de los ajustes preestablecidos utilizados, puede obtener miles de fragmentos de texto y enlaces únicos en cuestión de minutos.
Los resultados de la entrega se pueden guardar en cualquier formato necesario gracias al potente motor de plantillas Template Toolkit, que permite estructurar los datos en JSON, CSV, SQL y otros formatos, así como aplicar filtrado, ordenación y agregación de datos sobre la marcha.
El extractor Perplexity es ideal para tareas de inteligencia competitiva, recopilación de hechos y citas, creación de bases de conocimientos, monitoreo de noticias y análisis de temas, gracias a la alta calidad y contextualidad de los resultados entregados.
Datos recopilados
- Texto de la respuesta (en formato Markdown)
- Enlaces, anclajes y fragmentos (snippets) de las fuentes de datos
- Lista de preguntas similares
Posibilidades
- Selección del tipo de fuente de información (se admite selección múltiple)
- Inserción de preguntas similares en la cola de consultas hasta la profundidad especificada
- Elusión de protecciones y soporte de sesiones para un funcionamiento más estable y rápido
Casos de uso
- Recopilación de respuestas estructuradas por consultas temáticas para crear bases de conocimientos, planes de contenido, sistemas de referencia y generación de FAQ
- Extracción de enlaces a fuentes con anclajes y fragmentos: ideal para construir listas de recursos autorizados, citación y obtención de enlaces de retroceso
- Recopilación de preguntas similares/aclaratorias de los resultados de Perplexity: útil para analizar el interés del usuario, formar el núcleo semántico y generar ideas para artículos
- Monitoreo de menciones de marcas, productos o personas, vinculado al contexto y a las fuentes
- Búsqueda y análisis de opiniones de expertos, tendencias e información estratégica de fuentes autorizadas
- Verificación rápida de la actualidad y exhaustividad de la información sobre temas clave
- Automatización del análisis de la competencia: qué recursos se citan, qué temas se cubren y con qué frecuencia
- Apoyo a proyectos de investigación y análisis que requieren la agregación de información precisa de diferentes fuentes
- Cualquier otra tarea donde se requiera obtener rápidamente respuestas breves y precisas con confirmación de fuentes reales y contexto lógico
Consultas
Como consultas, es necesario indicar términos de búsqueda, exactamente igual que si se introdujeran directamente en el formulario de búsqueda de Perplexity, por ejemplo:
¿Cómo aprender a aprender rápido?
¿Cómo mejorar la memoria y la concentración?
¿Qué es un extractor?
TOP 10 sitios de la red rusa
Resultados
Aquí y en adelante, los ejemplos de resultados se han abreviado para una mejor claridad
Por defecto, se muestra la consulta y su respuesta, por ejemplo:
¿Qué es un extractor?
Un extractor es un programa o script que recopila, analiza y sistematiza automáticamente información de diversas fuentes, generalmente de sitios web[1][2][5][7]. La tarea principal del extractor es extraer los datos necesarios (por ejemplo, textos, precios, contactos, imágenes) de conjuntos de información estructurados o semiestructurados, como páginas HTML, bases de datos, archivos de texto y otros formatos[1][5][6].
**Cómo funciona un extractor:**
- Escanea las fuentes de datos especificadas (por ejemplo, páginas web).
...
TOP 10 sitios de la red rusa
## TOP-10 sitios de la red rusa a junio de 2025
Basado en datos recientes de Similarweb y otros recursos analíticos, la lista de los sitios más visitados del segmento ruso de Internet incluye los siguientes recursos:
1. **Yandex.ru** — el portal de Internet y buscador ruso más grande[2][6].
2. **Google.com** — buscador global, utilizado activamente también en Rusia[2][6].
...
### Tabla para mayor claridad
| Puesto | Sitio | Función principal |
|-------|----------------|------------------------------|
| 1 | yandex.ru | Búsqueda, servicios, portal |
| 2 | google.com | Búsqueda |
...
Variantes de salida de resultados
A-Parser admite un formateo flexible de los resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite mostrar los resultados en forma libre, así como en forma estructurada, por ejemplo CSV o JSON.
Exportación de lista de enlaces
Formato del resultado:
$sources.format('$link\n')
Ejemplo de resultado:
https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...
Salida en CSV de enlaces, anclajes y fragmentos con sus posiciones
Formato del resultado:
[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]
Ejemplo de resultado:
...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"¿Qué es Bitcoin (BTC)? Guía completa - Kraken","Conozca la naturaleza descentralizada de Bitcoin, su suministro limitado y su papel como moneda digital. Descubra qué hay detrás de BTC, cuáles son sus principios básicos y casos de uso."
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"Qué es el bitcoin y para qué sirve - Vedomosti","Es una moneda digital utilizada como medio de pago y activo financiero"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"¿Qué es el bitcoin y cómo funciona en palabras sencillas? - ForkLog","Bitcoin — es un sistema descentralizado basado en el principio de intercambio directo entre usuarios. Para las transacciones se utiliza la criptomoneda del mismo nombre BTC."
En el Formato de resultados general se aplica el motor de plantillas Template Toolkit para mostrar el array $sources en un ciclo FOREACH.
En el nombre del archivo de resultados, simplemente debe cambiar la extensión del archivo a csv.
Salida en JSON de la pregunta, respuesta y lista de preguntas similares
Formato general del resultado:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];
FOREACH item IN p1.related;
obj.related.push(item.text);
END;
obj.json %]
Texto inicial:
[
Texto final:
]
Ejemplo de resultado:
[{"related":["Por qué el bitcoin se considera la primera criptomoneda y en qué se diferencia del dinero tradicional","Cómo funciona la tecnología blockchain que sustenta al bitcoin","Qué métodos criptográficos protegen las transacciones en el sistema bitcoin","Por qué el límite de 21 millones de monedas hace del bitcoin un activo único","Qué ventajas ofrece la descentralización y la ausencia de intermediarios al usar bitcoin"],"answer":"**Bitcoin** (Bitcoin, BTC) — es la primera y más conocida criptomoneda, que representa un sistema de pago digital descentralizado basado en la tecnología blockchain. En este sistema, todas las transacciones se registran en un registro público (blockchain), que está protegido por métodos criptográficos y disponible para su verificación por cualquier participante de la red[1][3][4].\n...","query":"¿Qué es el bitcoin?"},{"related":["Qué reglas y consejos básicos ayudan a googlear correctamente","Por qué es importante evitar preguntas y frases complejas al buscar","Cómo usar el idioma inglés para una búsqueda más efectiva en Google","Qué operadores y símbolos ayudan a ampliar o precisar la búsqueda","Cuál es la diferencia entre el uso de comillas y la tilde al buscar información"],"answer":"## Cómo googlear correctamente: consejos básicos\n\n**Formule sus consultas de forma breve y directa**\n- Use de 2–6 a 6 palabras clave, evite preguntas largas y frases complejas. Por ejemplo, en lugar de \"¿qué hacer si no funciona el internet en mi computadora con windows?\" use \"no funciona internet windows cómo solucionar\"[1].\n\n**Busque frases exactas**\n...","query":"¿Cómo googlear correctamente?"}]
Configuraciones posibles
| Nombre del parámetro | Valor por defecto | Descripción |
|---|---|---|
| Sources | Web | Tipo de fuente de información (se admite selección múltiple) |
| Use sessions | ☑ | Guarda sesiones válidas, lo que permite extraer datos aún más rápido, obteniendo un menor número de errores |
| Bypass CloudFlare | ☑ | Elusión automática de la protección de CloudFlare |
| Bypass CloudFlare Browser Max Pages | 10 | Cantidad máx. de páginas al eludir CF |
| Bypass CloudFlare Browser Headless | ☑ | Si la opción está activada, el navegador no se mostrará durante la elusión de CF |