Ana içeriğe atla

HTML::ArticleExtractor - Makale Veri Kazıyıcı

Veri kazıyıcı incelemesi

Veri kazıyıcı incelemesiHTML::ArticleExtractorHTML::ArticleExtractor web sayfalarından makaleleri toplar.

A-Parser entegre edilmiş olan @mozilla/readability modülü yardımıyla çalışır ve başlık, HTML düzenli veya düz metin içerik, makale uzunluğu gibi temel verileri toplar.

Temel olarak Net::HTTPNet::HTTP veri kazıyıcısını kullanır, bu da onun işlevselliğini desteklemesini sağlar. Çok sayfalı veri çekmeyi (sayfalar arası geçiş) destekler. Yerleşik CloudFlare koruma atlatma araçlarına ve ayrıca verilerin scriptlerle yüklendiği sayfalardan e-postaları çekmek için motor olarak Chrome seçme imkanına sahiptir.

Dakikada 200 sorgu hızına ulaşabilir, – bu da saatte 12 000 bağlantı demektir.

Toplanan veriler

  • Makale başlığı - $title
  • Makale içeriğinin işlenmiş HTML dizesi - $content
  • Makalenin metin içeriği (tüm HTML kaldırılmış) - $textContent
  • Karakter cinsinden makale uzunluğu - $length
  • Makale açıklaması veya içerikten kısa bir kesit - $excerpt
  • Yazar meta verileri - $byline
  • Site adı - $siteName

Özellikler

  • Çok sayfalı veri çekme (sayfalar arası geçiş)
  • gzip/deflate/brotli sıkıştırmalarını destekler
  • Site kodlamalarını algılama ve UTF-8'e dönüştürme
  • CloudFlare korumasını atlatma
  • Motor seçimi (HTTP veya Chrome)
  • Makale uzunluğu belirleme imkanı
  • HTML etiketli veya etiketsiz makale veri çekme

Kullanım durumları

  • Herhangi bir siteden hazır makalelerin toplanması

Sorgular

Sorgu olarak, makalelerin çekilmesi gereken sayfaların bağlantıları belirtilmelidir, örneğin:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Sonuç çıktı seçenekleri

A-Parser, yerleşik Template Toolkit şablon motoru sayesinde sonuçları esnek bir şekilde formatlamanıza olanak tanır; bu da sonuçları serbest formda veya CSV ya da JSON gibi yapılandırılmış formatlarda çıktı almanızı sağlar.

Olası ayarlar

not

Tüm veri kazıyıcılar için ortak ayarlar

Net::HTTPNet::HTTP veri kazıyıcısının [tüm ayarlarını](/docs/tr/parsers/net-http#settings) destekler.