HTML::ArticleExtractor - Makale Veri Kazıyıcı
Veri kazıyıcı incelemesi

HTML::ArticleExtractor web sayfalarından makaleleri toplar.A-Parser entegre edilmiş olan @mozilla/readability modülü yardımıyla çalışır ve başlık, HTML düzenli veya düz metin içerik, makale uzunluğu gibi temel verileri toplar.
Temel olarak
Net::HTTP veri kazıyıcısını kullanır, bu da onun işlevselliğini desteklemesini sağlar. Çok sayfalı veri çekmeyi (sayfalar arası geçiş) destekler. Yerleşik CloudFlare koruma atlatma araçlarına ve ayrıca verilerin scriptlerle yüklendiği sayfalardan e-postaları çekmek için motor olarak Chrome seçme imkanına sahiptir.
Dakikada 200 sorgu hızına ulaşabilir, – bu da saatte 12 000 bağlantı demektir.
Toplanan veriler
- Makale başlığı -
$title - Makale içeriğinin işlenmiş HTML dizesi -
$content - Makalenin metin içeriği (tüm HTML kaldırılmış) -
$textContent - Karakter cinsinden makale uzunluğu -
$length - Makale açıklaması veya içerikten kısa bir kesit -
$excerpt - Yazar meta verileri -
$byline - Site adı -
$siteName
Özellikler
- Çok sayfalı veri çekme (sayfalar arası geçiş)
- gzip/deflate/brotli sıkıştırmalarını destekler
- Site kodlamalarını algılama ve UTF-8'e dönüştürme
- CloudFlare korumasını atlatma
- Motor seçimi (HTTP veya Chrome)
- Makale uzunluğu belirleme imkanı
- HTML etiketli veya etiketsiz makale veri çekme
Kullanım durumları
- Herhangi bir siteden hazır makalelerin toplanması
Sorgular
Sorgu olarak, makalelerin çekilmesi gereken sayfaların bağlantıları belirtilmelidir, örneğin:
https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s
Sonuç çıktı seçenekleri
A-Parser, yerleşik Template Toolkit şablon motoru sayesinde sonuçları esnek bir şekilde formatlamanıza olanak tanır; bu da sonuçları serbest formda veya CSV ya da JSON gibi yapılandırılmış formatlarda çıktı almanızı sağlar.
Olası ayarlar
Tüm veri kazıyıcılar için ortak ayarlar
Net::HTTP veri kazıyıcısının [tüm ayarlarını](/docs/tr/parsers/net-http#settings) destekler.