Desduplicação de resultados

Desduplicação, remoção de duplicatas, remoção de repetições - tudo isso implica que não precisamos de resultados repetidos. No A-Parser, existem 2 métodos de desduplicação, vamos analisar cada um detalhadamente.

Desduplicação de resultados por linha

Este método funciona após a formatação do resultado; imediatamente antes de gravar o resultado no arquivo, cada linha é verificada quanto à unicidade e apenas novas linhas únicas são gravadas no arquivo.

dica

Veja também: Ordem de processamento de consultas

Você pode ativar a unicidade por linha na Tarefa Rápida:

Opção de unicidade de resultados por linha na Tarefa Rápida

Ou no Editor de Tarefas:

Opção Desduplicação por linha no Editor de Tarefas

Desduplicação por qualquer resultado

A desduplicação por qualquer resultado permite realizar a desduplicação diretamente no resultado selecionado de um scraper específico. Você pode adicionar este tipo de desduplicação no Editor de Tarefas, clicando no ícone de ferramenta à direita do scraper e selecionando Add unique result (Adicionar desduplicação):

Opção Adicionar desduplicação no Editor de Tarefas

Agora você pode escolher em qual resultado aplicar a desduplicação e o tipo de desduplicação:

Tipo de desduplicação no Editor de Tarefas

nota

A opção Global (Globalmente) é utilizada quando 2 ou mais scrapers são selecionados; ela define se deve ser feita uma desduplicação geral ou individual para cada scraper.

Tipos de desduplicação

Parâmetro	Descrição
String	Desduplicação por linha (toda a linha do resultado é comparada integralmente)
Domain	Desduplicação por domínio (o domínio é comparado integralmente, por exemplo, www.domain.com e domain.com são domínios diferentes)
Top Level domain	Desduplicação pelo domínio principal, considerando domínios regionais, comerciais, educacionais e outros (por exemplo, domain.co.uk e domain2.co.uk são domínios diferentes, enquanto sub1.domain.com e sub2.domain.com são iguais)
Domínio de 2º nível	Desduplicação por domínio de segundo nível (compara domínios de segundo nível, por exemplo, www.domain.com, domain.com e user.subdomain.domain.com são todos o mesmo domínio)
Path	Desduplicação por caminho (compara as partes do link até o arquivo, por exemplo, http://domain.com/path1/file.php e http://domain.com/path1/file2.php são partes iguais do link até o arquivo)
Without params	Desduplicação por link sem parâmetros (compara links sem parâmetros, por exemplo, http://domain.com/file.php?page=1 e http://domain.com/file.php?page=2 são links iguais)

Desduplicação de consultas

A desduplicação de consultas envia para a extração de dados apenas consultas únicas que não foram processadas anteriormente na tarefa atual. Principais casos de uso:

Se houver duplicatas nas consultas de origem e não for desejável processá-las (trabalho duplo)
Ao usar a opção Parse to level (Extrair até o nível), é necessário usar apenas consultas únicas para evitar o crescimento excessivo e o loop de consultas (por exemplo, ao usar o scraper HTML::LinkExtractor)

nota

Em todos os outros casos, o uso desnecessário da desduplicação de consultas apenas tornará a operação geral do scraper mais lenta

Salvar estado de desduplicação entre tarefas

Existe a possibilidade de salvar a base de desduplicação para uso em tarefas futuras, o que permite salvar apenas novos resultados únicos em novas tarefas (por exemplo, links ao realizar a extração de dados da SERP no SE::Google)

Para salvar a base de desduplicação, é necessário criar um novo nome de base ao adicionar a primeira tarefa:

Para todas as tarefas subsequentes, deve-se selecionar o nome da base criado anteriormente; assim, apenas novos resultados únicos serão salvos, independentemente de os resultados estarem sendo gravados no mesmo arquivo da primeira tarefa ou em um novo arquivo.