Pular para o conteúdo principal

SE::Quora - scraper de resultados da Quora

SE::Quora

Visão geral do scraper

SE::QuoraSE::Quora - scraper de resultados de pesquisa do Quora.

Coleta resultados do serviço de mesmo nome.

Você pode usar a multiplicação automática de consultas, substituição de subconsultas a partir de arquivos, combinação de caracteres alfanuméricos e listas para obter a maior quantidade possível de resultados.

A funcionalidade do A-Parser permite salvar as configurações de extração de dados do scraper SE::Quora para uso futuro (predefinições), definir cronogramas de extração de dados e muito mais.

A preservação dos resultados é possível no formato e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.

Dados coletados

No Quora existem 6 tipos de resultados: Questions, Answers, Posts, Profiles, Topics e Spaces. Para cada tipo, o conjunto de dados difere, portanto, no scraper, cada tipo é gravado em seu próprio array separado. Dependendo do tipo, são coletados:

  • Link para a pergunta, texto da pergunta, número de respostas e data
  • Autor da resposta, texto da resposta, links para mídia na resposta, data e hora da resposta, número de votos, visualizações e quantas vezes a resposta foi compartilhada
  • Link para o post, título do post, texto do post, links para mídia no post, nome e link para o perfil do autor, data e hora da publicação, número de votos, visualizações e quantas vezes foi compartilhado
  • e outros dados, dependendo do tipo de resultado

Recursos

  • Escolha do tipo de resultado desejado ou extração de dados de todos simultaneamente
  • Escolha do período dos resultados

Casos de uso

  • Quaisquer cenários onde seja necessário obter dados do Quora

Consultas

Como consultas, é necessário indicar palavras-chave, por exemplo:

test

Opções de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados de forma arbitrária, bem como estruturada, por exemplo, CSV ou JSON

Exibição padrão

Formato do resultado:

$questions.format('$question\n')

Exemplo de resultado:

What is the best free online IQ test?
What is software testing?
How reliable is the DNA testing offered by sites like Ancestry.com or 23andMe?
How can I pass a urine drug test for meth?
How do you know if you're really smart without taking an IQ test?
Which is the best test series for CAT?
How reliable are online IQ tests?
Is software testing a good career choice?
What is the best test series for the GATE examination?
What is the best way to get my IQ checked online?
...

Obtenção de cookies

Obtenção da opção obrigatória para autorização

Spoiler: como encontrar o cookie?
  1. Acesse quora.com, faça o login
  2. Abra as Ferramentas do Desenvolvedor (F12) e atualize a página
  3. Vá para a aba Network, encontre a requisição para quora.com
  4. Copie toda a string de cookies cookie
informação

De acordo com nossos testes, as contas não são banidas (isso pode mudar no futuro), mas ao realizar a extração de dados em mais de 10 threads, o Quora começa a retornar erros e mensagens sobre excesso de requisições. Portanto, recomenda-se extrair dados em um número pequeno de threads ou usar cookies de várias contas.

Configurações possíveis

ParâmetroValor padrãoDescrição
Pages count5Quantidade de páginas de resultados
Results typeQuestionsTipo de resultados
Results timeAll timePeríodo dos resultados
CookieCampo para especificar cookies de contas autorizadas. É possível especificar cookies de várias contas; o scraper escolherá aleatoriamente entre elas para cada tentativa.