FreeAI::Perplexity - Scraper do serviço de IA Perplexity

Visão geral do scraper
O scraper Perplexity é uma ferramenta moderna para coletar informações estruturadas de um dos sistemas de busca por IA que mais cresce no mundo. Graças à integração com o Perplexity, você obtém não apenas listas de links, mas respostas atuais, concisas e relevantes, baseadas em um grande número de fontes, incluindo artigos científicos, blogs, fóruns e portais de notícias.
O scraper Perplexity suporta consultas em linguagem natural, incluindo esclarecimentos, perguntas contextuais e construções aninhadas. O scraper oferece a possibilidade de extrair perguntas relevantes, adicionando-as automaticamente à fila de consultas, expandindo assim significativamente a quantidade de informações coletadas.
A velocidade de processamento atinge 500–800 consultas por minuto graças ao modo de processamento em múltiplas threads. Dependendo da configuração e dos presets utilizados, você pode obter milhares de fragmentos de texto e links exclusivos em poucos minutos.
Os resultados da extração podem ser salvos em qualquer formato necessário graças ao poderoso motor de modelos Template Toolkit, que permite estruturar dados em JSON, CSV, SQL e outros formatos, além de aplicar filtragem, ordenação e agregação de dados em tempo real.
O scraper Perplexity é ideal para tarefas de inteligência competitiva, coleta de fatos e citações, criação de bases de conhecimento, monitoramento de notícias e análise de tópicos, devido à alta qualidade e ao contexto dos resultados fornecidos.
Dados coletados
- Texto da resposta (em formatação Markdown)
- Links, âncoras e snippets das fontes de dados
- Lista de perguntas semelhantes
Recursos
- Escolha do tipo de fonte de informação (suporta seleção múltipla)
- Inserção de perguntas semelhantes na fila de consultas até a profundidade especificada
- Contorno de proteções e suporte a sessões para um trabalho mais estável e rápido
Casos de uso
- Coleta de respostas estruturadas para consultas temáticas para criação de bases de conhecimento, planos de conteúdo, sistemas de referência e geração de FAQ
- Extração de links para fontes com âncoras e snippets - ideal para construir listas de recursos autoritários, citações e coleta de backlinks
- Coleta de perguntas semelhantes/de esclarecimento dos resultados do Perplexity - útil para análise de interesse do usuário, formação de núcleo semântico e geração de ideias para artigos
- Monitoramento de menções a marcas, produtos ou pessoas - com vínculo ao contexto e às fontes
- Busca e análise de opiniões de especialistas, tendências e insights de fontes autoritárias
- Verificação rápida da atualidade e completude das informações sobre temas-chave
- Automação da análise de concorrentes: quais recursos são citados, quais temas são abordados e com que frequência
- Suporte a projetos de pesquisa e analíticos que exigem a agregação de informações precisas de diferentes fontes
- Quaisquer outras tarefas onde seja necessário obter rapidamente respostas curtas e precisas com confirmação de fontes reais e contexto lógico
Consultas
Como consultas, é necessário indicar termos de pesquisa, exatamente como se fossem digitados diretamente no formulário de busca do Perplexity, por exemplo:
Como aprender a aprender rápido?
Como melhorar a memória e a concentração?
O que é um scraper?
TOP 10 sites da internet russa
Resultados
Aqui e adiante, os exemplos de resultados foram abreviados para melhor visualização
Por padrão, a consulta e a resposta a ela são exibidas, por exemplo:
O que é um scraper?
Um scraper é um programa ou script que coleta, analisa e sistematiza automaticamente informações de várias fontes, na maioria das vezes de sites[1][2][5][7]. A principal tarefa do scraper é extrair os dados necessários (por exemplo, textos, preços, contatos, imagens) de conjuntos de informações estruturados ou semiestruturados, como páginas HTML, bancos de dados, arquivos de texto e outros formatos[1][5][6].
**Como funciona o scraper:**
- Escaneia as fontes de dados especificadas (por exemplo, páginas da web).
...
TOP 10 sites da internet russa
## TOP-10 sites da Runet em junho de 2025
Com base em dados recentes da Similarweb e outros recursos analíticos, a lista dos sites mais visitados do segmento russo da internet (Runet) inclui os seguintes recursos:
1. **Yandex.ru** — o maior buscador e portal de internet russo[2][6].
2. **Google.com** — buscador global, ativamente utilizado também na Rússia[2][6].
...
### Tabela para visualização
| Posição | Site | Função principal |
|-------|----------------|------------------------------|
| 1 | yandex.ru | Busca, serviços, portal |
| 2 | google.com | Busca |
...
Variantes de exibição de resultados
O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados em forma livre, bem como em forma estruturada, como CSV ou JSON.
Exportação de lista de links
Formato do resultado:
$sources.format('$link\n')
Exemplo de resultado:
https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...
Saída em CSV de links, âncoras e snippets com suas posições
Formato do resultado:
[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]
Exemplo de resultado:
...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"O que é Bitcoin (BTC)? guia completo - Kraken","Saiba mais sobre a natureza descentralizada do Bitcoin, a oferta limitada e seu papel como moeda digital. Descubra o que está na base do BTC, quais são seus princípios fundamentais e casos de uso."
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"O que é bitcoin e para que serve - Vedomosti","É uma moeda digital usada como meio de pagamento e ativo financeiro"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"O que é bitcoin e como funciona em palavras simples? - ForkLog","Bitcoin — é um sistema descentralizado baseado no princípio de troca direta entre usuários. Para transações, utiliza-se a criptomoeda de mesmo nome BTC."
No Formato geral de resultados é aplicado o motor de modelos Template Toolkit para exibir o array $sources em um loop FOREACH.
No nome do arquivo de resultados, basta alterar a extensão do arquivo para csv.
Saída em JSON da pergunta, resposta e lista de perguntas semelhantes
Formato geral do resultado:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];
FOREACH item IN p1.related;
obj.related.push(item.text);
END;
obj.json %]
Texto inicial:
[
Texto final:
]
Exemplo de resultado:
[{"related":["Por que o bitcoin é considerado a primeira criptomoeda e como ele difere do dinheiro tradicional","Como funciona a tecnologia blockchain que fundamenta o bitcoin","Quais métodos criptográficos protegem as transações no sistema bitcoin","Como o limite de 21 milhões de moedas torna o bitcoin um ativo único","Quais vantagens a descentralização e a ausência de intermediários oferecem ao usar o bitcoin"],"answer":"**Bitcoin** (Bitcoin, BTC) — é a primeira e mais conhecida criptomoeda, representando um sistema de pagamento digital descentralizado baseado na tecnologia blockchain. Neste sistema, todas as transações são registradas em um registro público (blockchain), que é protegido por métodos criptográficos e está disponível para verificação por qualquer participante da rede[1][3][4].\n...","query":"O que é bitcoin?"},{"related":["Quais as principais regras e dicas que ajudam a pesquisar no Google corretamente","Por que é importante evitar perguntas e frases complexas na busca","Como usar o idioma inglês para uma busca mais eficiente no Google","Quais operadores e símbolos ajudam a expandir ou refinar a busca","Qual a diferença entre o uso de aspas e til ao buscar informações"],"answer":"## Como pesquisar no Google corretamente: dicas principais\n\n**Formule consultas curtas e diretas**\n- Use de 2–6 palavras-chave, evite perguntas longas e frases complexas. Por exemplo, em vez de \"o que fazer se a internet não funciona no meu computador com windows?\" use \"internet não funciona windows como resolver\"[1].\n\n**Busque por frases exatas**\n...","query":"Como pesquisar no Google corretamente?"}]
Configurações possíveis
| Nome do parâmetro | Valor padrão | Descrição |
|---|---|---|
| Sources | Web | Tipo de fonte de informação (suporta seleção múltipla) |
| Use sessions | ☑ | Salva sessões boas, o que permite extrair dados ainda mais rápido, obtendo menos erros |
| Bypass CloudFlare | ☑ | Contorno automático da proteção CloudFlare |
| Bypass CloudFlare Browser Max Pages | 10 | Qtd. máx. de páginas ao contornar CF |
| Bypass CloudFlare Browser Headless | ☑ | Se a opção estiver ativada, o navegador não será exibido durante o contorno do CF |