Ana içeriğe atla

HTML::TextExtractor::LangDetect - Sayfa Dili Belirleme

Veri Kazıyıcı Genel Bakış

Veri kazıyıcı genel bakışHTML::TextExtractor::LangDetectHTML::TextExtractor::LangDetect web sitesinin dilini ve ayrıca yüzde olarak belirleme doğruluğunu belirler. Çok sayfalı veri çekmeyi ve belirtilen derinliğe kadar sitenin iç sayfalarında gezinmeyi destekler, bu da sitenin tüm sayfalarını dolaşarak iç ve dış bağlantıları toplamanıza olanak tanır. Yerleşik koruma atlatma araçlarına sahiptir CloudFlare ve ayrıca seçim imkanı sunar Chrome verilerin scriptlerle yüklendiği sayfalardan e-postaları çekmek için bir motor olarak. Dakikada 2000 sorgu hızına ulaşabilir – bu da 120 000 saatte bağlantı demektir.

Toplanan Veriler

  • Web sitesinin dilini belirler
  • % cinsinden doğruluk oranı

Özellikler

  • Çok sayfalı veri çekme (sayfalar arası geçiş)
  • gzip/deflate/brotli sıkıştırmalarını destekler
  • Web sitesi kodlamalarını algılama ve UTF-8'e dönüştürme
  • CloudFlare korumasını atlatma
  • Motor seçimi (HTTP veya Chrome)
  • Üçüncü taraf hizmetleri kullanmadan web sitesi dilini belirleme
  • % cinsinden doğruluk oranı

Varyant kullanımı

  • Belirli bir içerik diline sahip alan adlarının seçimi

Sorgular

Sorgu olarak bir web sitesi listesi belirtilmelidir, örneğin:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Sonuç çıktı seçenekleri

A-Parser, yerleşik Template Toolkit şablon motoru sayesinde sonuçların esnek bir şekilde biçimlendirilmesini destekler; bu da sonuçları rastgele bir formda veya CSV ya da JSON gibi yapılandırılmış bir biçimde almanıza olanak tanır.

Varsayılan çıktı

Sonuç formatı:

$query: $lang\n

Sonuç örneği:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Olası ayarlar

Parametre adıVarsayılan değerAçıklama
Good statusAllSunucudan gelen hangi yanıtın başarılı sayılacağı seçimi. Veri çekme sırasında sunucudan farklı bir yanıt gelirse, sorgu başka bir proxy ile tekrarlanacaktır.
Good code RegExYanıt kodunu kontrol etmek için düzenli ifade (regex) belirtme imkanı.
MethodGETSorgu yöntemi.
POST bodyPOST yöntemi kullanıldığında sunucuya iletilecek içerik. $query – sorgu URL'si, $query.orig – orijinal sorgu ve Use Pages seçeneği kullanıldığında $pagenum - sayfa numarası değişkenlerini destekler.
CookiesSorgu için çerezleri (cookies) belirtme imkanı.
User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)Sayfa sorgulanırken kullanılacak User-Agent başlığı.
Additional headersŞablon motoru özelliklerini ve sorgu oluşturucudaki değişkenleri kullanarak özel sorgu başlıkları belirtme imkanı.
Read only headersSadece başlıkları oku. İçeriği işlemeye gerek yoksa bazı durumlarda trafik tasarrufu sağlar.
Detect charset on contentSayfa içeriğine göre kodlamayı algıla.
Emulate browser headersTarayıcı başlıklarını emüle et.
Max redirects count7Veri kazıyıcının takip edeceği maksimum yönlendirme sayısı.
Max cookies count16Kaydedilecek maksimum çerez sayısı.
Bypass CloudFlareCloudFlare kontrolünü otomatik atlatma.
Follow common redirectsMax redirects count sınırını aşmadan aynı alan adı içinde http <-> https ve www.domain <-> domain yönlendirmeleri yapılmasına olanak tanır.
EngineHTTP (Fast, JavaScript Disabled)HTTP (daha hızlı, JavaScript yok) veya Chrome (daha yavaş, JavaScript açık) motorunu seçmenize olanak tanır.
Chrome HeadlessSeçenek etkinse tarayıcı görüntülenmez.
Chrome DevToolsChromium hata ayıklama araçlarının kullanılmasına olanak tanır.
Chrome Log Proxy connectionsSeçenek etkinse, chrome bağlantılarıyla ilgili bilgiler günlüğe (log) yazılır.
Chrome Wait Untilnetworkidle2Sayfanın ne zaman yüklenmiş sayılacağını belirler. Değerler hakkında daha fazla bilgi.
Use HTTP/2 transportHTTP/1.1 yerine HTTP/2 kullanılıp kullanılmayacağını belirler. Örneğin, Google ve Majestic, HTTP/1.1 kullanıldığında hemen engeller.
Bypass CloudFlare with Chrome(Experimental)Chrome üzerinden CF atlatma.
Bypass CloudFlare with Chrome Max PagesChrome üzerinden CF atlatırken maks. sayfa sayısı.