HTML::TextExtractor::LangDetect - Sayfa Dili Belirleme
Veri Kazıyıcı Genel Bakış

HTML::TextExtractor::LangDetect web sitesinin dilini ve ayrıca yüzde olarak belirleme doğruluğunu belirler. Çok sayfalı veri çekmeyi ve belirtilen derinliğe kadar sitenin iç sayfalarında gezinmeyi destekler, bu da sitenin tüm sayfalarını dolaşarak iç ve dış bağlantıları toplamanıza olanak tanır. Yerleşik koruma atlatma araçlarına sahiptir CloudFlare ve ayrıca seçim imkanı sunar Chrome verilerin scriptlerle yüklendiği sayfalardan e-postaları çekmek için bir motor olarak. Dakikada 2000 sorgu hızına ulaşabilir – bu da 120 000 saatte bağlantı demektir.Toplanan Veriler
- Web sitesinin dilini belirler
- % cinsinden doğruluk oranı
Özellikler
- Çok sayfalı veri çekme (sayfalar arası geçiş)
- gzip/deflate/brotli sıkıştırmalarını destekler
- Web sitesi kodlamalarını algılama ve UTF-8'e dönüştürme
- CloudFlare korumasını atlatma
- Motor seçimi (HTTP veya Chrome)
- Üçüncü taraf hizmetleri kullanmadan web sitesi dilini belirleme
- % cinsinden doğruluk oranı
Varyant kullanımı
- Belirli bir içerik diline sahip alan adlarının seçimi
Sorgular
Sorgu olarak bir web sitesi listesi belirtilmelidir, örneğin:
http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/
Sonuç çıktı seçenekleri
A-Parser, yerleşik Template Toolkit şablon motoru sayesinde sonuçların esnek bir şekilde biçimlendirilmesini destekler; bu da sonuçları rastgele bir formda veya CSV ya da JSON gibi yapılandırılmış bir biçimde almanıza olanak tanır.
Varsayılan çıktı
Sonuç formatı:
$query: $lang\n
Sonuç örneği:
http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH
Olası ayarlar
| Parametre adı | Varsayılan değer | Açıklama |
|---|---|---|
| Good status | All | Sunucudan gelen hangi yanıtın başarılı sayılacağı seçimi. Veri çekme sırasında sunucudan farklı bir yanıt gelirse, sorgu başka bir proxy ile tekrarlanacaktır. |
| Good code RegEx | Yanıt kodunu kontrol etmek için düzenli ifade (regex) belirtme imkanı. | |
| Method | GET | Sorgu yöntemi. |
| POST body | POST yöntemi kullanıldığında sunucuya iletilecek içerik. $query – sorgu URL'si, $query.orig – orijinal sorgu ve Use Pages seçeneği kullanıldığında $pagenum - sayfa numarası değişkenlerini destekler. | |
| Cookies | Sorgu için çerezleri (cookies) belirtme imkanı. | |
| User agent | Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) | Sayfa sorgulanırken kullanılacak User-Agent başlığı. |
| Additional headers | Şablon motoru özelliklerini ve sorgu oluşturucudaki değişkenleri kullanarak özel sorgu başlıkları belirtme imkanı. | |
| Read only headers | ☐ | Sadece başlıkları oku. İçeriği işlemeye gerek yoksa bazı durumlarda trafik tasarrufu sağlar. |
| Detect charset on content | ☐ | Sayfa içeriğine göre kodlamayı algıla. |
| Emulate browser headers | ☐ | Tarayıcı başlıklarını emüle et. |
| Max redirects count | 7 | Veri kazıyıcının takip edeceği maksimum yönlendirme sayısı. |
| Max cookies count | 16 | Kaydedilecek maksimum çerez sayısı. |
| Bypass CloudFlare | ☑ | CloudFlare kontrolünü otomatik atlatma. |
| Follow common redirects | ☑ | Max redirects count sınırını aşmadan aynı alan adı içinde http <-> https ve www.domain <-> domain yönlendirmeleri yapılmasına olanak tanır. |
| Engine | HTTP (Fast, JavaScript Disabled) | HTTP (daha hızlı, JavaScript yok) veya Chrome (daha yavaş, JavaScript açık) motorunu seçmenize olanak tanır. |
| Chrome Headless | ☐ | Seçenek etkinse tarayıcı görüntülenmez. |
| Chrome DevTools | ☑ | Chromium hata ayıklama araçlarının kullanılmasına olanak tanır. |
| Chrome Log Proxy connections | ☑ | Seçenek etkinse, chrome bağlantılarıyla ilgili bilgiler günlüğe (log) yazılır. |
| Chrome Wait Until | networkidle2 | Sayfanın ne zaman yüklenmiş sayılacağını belirler. Değerler hakkında daha fazla bilgi. |
| Use HTTP/2 transport | ☐ | HTTP/1.1 yerine HTTP/2 kullanılıp kullanılmayacağını belirler. Örneğin, Google ve Majestic, HTTP/1.1 kullanıldığında hemen engeller. |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | Chrome üzerinden CF atlatma. |
| Bypass CloudFlare with Chrome Max Pages | Chrome üzerinden CF atlatırken maks. sayfa sayısı. |