1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 1500+ и мы растем!
    Скрыть объявление

Парсер JS::Yandex::LangDetect 1.0.2

Определение языка страницы через Яндекс Переводчик

  1. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    3.212
    Симпатии:
    1.783
    Пользователь Support разместил новый ресурс:

    JS::Yandex::LangDetect - Определение языка страницы через Яндекс Переводчик

    Узнать больше об этом ресурсе...
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    3.212
    Симпатии:
    1.783
    [​IMG]
    Результат:
    Код:
    http://www.aljazeera.com.tr: tr (Turkish)
    http://apple.com: en (English)
    https://ja.wikipedia.org: ja (Japanese)
    http://brasil.gov.br: pt (Portuguese)
    http://a-parser.com: ru (Russian)
    
    Код парсера
    • Используется HTML::TextExtractor HTML::TextExtractor для получения текста
    • Для определения языка страницы используется Яндекс Переводчик
      • Получаем ID
      • Отправляем POST запрос с полученным ID и текстом
    • Чтобы не делать дополнительные однотипные запросы, таблица соответствия кода языка и полного названия встроена в парсер
    • Есть возможность менять некоторые настройки парсера прямо из интерфейса: user agent и использование прокси для TextExtractor'а, обьем и позицию текста, отправляемого на определение
    • Ведется подробный лог работы, в результат можно вывести переменную $error, в которой будет содержаться причина если запрос был неудачным
     
  3. AntonR

    AntonR Member

    Регистрация:
    7 дек 2013
    Сообщения:
    84
    Симпатии:
    13
    можете пожалуйста подправить или сказать в чем причина ошибки:
    JavaScript error: Not an ARRAY reference at build/core.to_build.pl line 27529.
    Код:
    {"queryformat":"$query","options":[],"pagecount":1,"proxyChecker":"*","parsecodes":{"200":1},"do_gzip":1,"lang_list":{"ne":"Nepali","su":"Sundanese","tr":"Turkish","da":"Danish","gl":"Galician","ru":"Russian","ro":"Romanian","az":"Azerbaijani","vi":"Vietnamese","ta":"Tamil","lb":"Luxembourgish","ml":"Malayalam","cy":"Welsh","ko":"Korean","cs":"Czech","uz":"Uzbek","af":"Afrikaans","ht":"Haitian","bs":"Bosnian","is":"Icelandic","ky":"Kyrgyz","mrj":"Hill Mari","mt":"Maltese","ga":"Irish","hy":"Armenian","la":"Latin","ms":"Malay","eu":"Basque","ka":"Georgian","gu":"Gujarati","bg":"Bulgarian","mi":"Maori","pap":"Papiamento","sv":"Swedish","it":"Italian","hu":"Hungarian","fa":"Persian","ca":"Catalan","pl":"Polish","sq":"Albanian","sk":"Slovak","jv":"Javanese","hi":"Hindi","pt":"Portuguese","uk":"Ukrainian","ceb":"Cebuano","ba":"Bashkir","es":"Spanish","no":"Norwegian","sw":"Swahili","lv":"Latvian","tt":"Tatar","fr":"French","id":"Indonesian","xh":"Xhosa","sr":"Serbian","th":"Thai","mhr":"Mari","et":"Estonian","si":"Sinhalese","tl":"Tagalog","mk":"Macedonian","fi":"Finnish","en":"English","lt":"Lithuanian","udm":"Udmurt","hr":"Croatian","de":"German","be":"Belarusian","ur":"Urdu","yi":"Yiddish","pa":"Punjabi","sl":"Slovenian","ja":"Japanese","bn":"Bengali","am":"Amharic","tg":"Tajik","mr":"Marathi","kn":"Kannada","he":"Hebrew","te":"Telugu","zh":"Chinese","eo":"Esperanto","nl":"Dutch","ar":"Arabic","mn":"Mongolian","gd":"Scottish Gaelic","el":"Greek","kk":"Kazakh","mg":"Malagasy"},"timeout":60,"text_position":"last","useproxy":1,"extraquery":"","HTML_TextExtractor_use_proxy":1,"version":"1.0.1","proxyretries":10,"requestdelay":0,"proxybannedcleanup":600,"formatable":{"arrays":{},"flat":[["query","Formatted query"],["query.orig","Original query"],["query.first","First query"],["info.success","Parsing success"],["info.retries","Used retries"],["info.stats","Statistics"],["langcode","Language code"],["langname","Language name"],["error","Error reason"],["data","Raw data"]]},"max_text_size":4096,"formatresult":"$query: $langcode ($langname)\\n","HTML_TextExtractor_ua":"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)","max_size":1048576}
    
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    3.212
    Симпатии:
    1.783
    relay и Forbidden нравится это.
  5. Vvtex

    Vvtex A-Parser Pro License
    A-Parser Pro

    Регистрация:
    9 окт 2017
    Сообщения:
    116
    Симпатии:
    24
    Подскажите User Agent возможно менять налету?
    "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; etc)";
     
  6. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    3.212
    Симпатии:
    1.783
    Добрый день.
    Нет, такой возможности нету.
     
  7. Vvtex

    Vvtex A-Parser Pro License
    A-Parser Pro

    Регистрация:
    9 окт 2017
    Сообщения:
    116
    Симпатии:
    24
    м
     

    Вложения:

    • user agent.png
      user agent.png
      Размер файла:
      7,5 КБ
      Просмотров:
      7
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    3.212
    Симпатии:
    1.783
    @Vvtex, если вы имели в виду возможность указывать юзерагент в пресете, то да, такая возможность есть, и об этом написано выше:
    А менять его "на лету", т.е. во время работы задания, нельзя.
     
  9. Vvtex

    Vvtex A-Parser Pro License
    A-Parser Pro

    Регистрация:
    9 окт 2017
    Сообщения:
    116
    Симпатии:
    24
    Спасибо, я не знал, что можно строчкой указывать несколько user agent.
     
  10. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    3.212
    Симпатии:
    1.783
    Можно указывать только 1 юзерагент.
     
  11. RaunOWW

    RaunOWW A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 май 2017
    Сообщения:
    3
    Симпатии:
    0
  12. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    181
    Судя по скриншоту проблема в прокси. Увеличьте кол-во попыток и если проверка прокси не включена, то включите
     

Поделиться этой страницей