1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

А-Парсер и Пандора!

Тема в разделе "Трёп", создана пользователем Topper, 23 апр 2015.

Статус темы:
Закрыта.
  1. btr

    btr A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    11 фев 2013
    Сообщения:
    198
    Симпатии:
    116
    если в профиле стоит данная галка то да, удаляет.
     
  2. kashim

    kashim A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    23 апр 2015
    Сообщения:
    36
    Симпатии:
    12
    В парсере тайтлов похоже ошибка, связанная с обработкой кодировок. Часто проскакивают тайтлы такого вида:
    ?????????° "???° ???????µ???????? N?N??±?µ?¶?µ"
    Naeo -Iieiaay Aaa?aey- Iieiaay Aaa?aey: nai?iee aieoiaioia
    A. ?oeia E. Eiaooi ?onneay iieeoey / ?onneay iieeoey
     
  3. nouton

    nouton A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    26 фев 2013
    Сообщения:
    9
    Симпатии:
    0
    у меня у одного текстовка черт пойми какая парсится
    Why do I have to complete a CAPTCHA?
    Если функция включена, то следующий ролик начнет воспроизводиться автоматически.
    Completing the CAPTCHA proves you are a human and gives you temporary access to the web property.
    What can I do to prevent this in the future?
    Введите капчу!
    If you are on a personal connection, like at home, you can run an anti-virus scan on your device to make sure it is not infected with malware.
    If you are at an office or shared network, you can ask the network administrator to run a scan across the network looking for misconfigured or infected devices.

    И миллион других, стабильно процентов 20 текстовки
    Юзаю прокси носка
     
  4. sergeda

    sergeda A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 май 2013
    Сообщения:
    193
    Симпатии:
    23
    Проверил у себя. Тоже куча текстовок с этим текстом есть. Но это наверное вопрос не к Linkaparser а к A-parser. Почему он не определяет это как ошибку. Кстати по - умолчанию правило извлечения текстовки настроено без прокси. Так что прокси тут не причем.
     
  5. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    По просьбам трудящихся в LAP была добавлена возможность отключить парсинг и использовать только локальный накопленный кеш контента
    В последней версии. Перезалил сегодня. И кстати АП пандоры сегодня.
     
    btr, List и Sobesednic нравится это.
  6. bigve

    bigve A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    23 июл 2015
    Сообщения:
    36
    Симпатии:
    4
    тоже самое есть..
     
  7. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Вот тут галка детекта кодировки стоит?

    [​IMG]
    [​IMG]
     
    kashim нравится это.
  8. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    а почему должен? :) это не текст что ли?
     
  9. btr

    btr A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    11 фев 2013
    Сообщения:
    198
    Симпатии:
    116
    @Topper предложение есть, как дополнительный функционал парсить в формат мультикей, и генерировать с этого формата доры!
    Приведу пример, я сейчас паршу како йто адалт туб по ключам, складываю все это дело в мультикей файл, и потом юзаю этот файл для генерации дора.
    Хотелось бы чтоб в линапарсере была возможность свой формат задавать, и уже разбирать его в шаблоне на ключи.
    Допустим я сделал пресет в апарсере, который будет сладывать спаршенное в таком виде:
    кей1;мультикей1-1;мультикей1-2;мультикей1-3
    кей2;мультикей2-1;мультикей2-2;мультикей2-3
    кей3;мультикей3-1;мультикей3-2;мультикей3-3
    ...
    в линк апарсере сделать настраиваемые поля, и в шаблоне уже юзать как обычный мультикей.

    PS это не только для адалта подходит, так же можно и развлекалово с ютуба парсить, или товарные фиды различных партнерок.
     
    vipdenya нравится это.
  10. Антон

    Антон A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 июл 2013
    Сообщения:
    31
    Симпатии:
    9
    Ещё было бы удобно опционально разделять парсинг А-Парсером и остальную работу. Чтобы Линкапарсер накидал заданий А-Парсеру и остановился. Тем временем можно генерить из того, что уже есть. А потом, когда А-Парсер закончит, опять Линкапарсер включить и скачать новый контент.
     
  11. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Встроенный в пандору LinkAParser обновлен(v2.2)
    Поэтому нужно перескачать текущую версию пандоры с сайта.
    Из архива пандоры можно обновить только .exe файлы.
    Из того что фиксилось:
    • Прогресбар пофикшен
    • Добавлена обработка ошибок 404 прилетающих от парсера
    • Доработан учет допарсинга, там был небольшой баг
    • Удаляются с диска недопаршенные ключи текста, если включен репарсинг, но лимит не достигнут
    • При очистке текста домен заменяется не на [SITE], а на [HOST]

    п.с. UI модуля качать и обновлять не нужно, он в этой версии не поменялся
     
    #191 Topper, 26 фев 2016
    Последнее редактирование: 26 фев 2016
    btr, kashim, Alex и 3 другим нравится это.
  12. Антон

    Антон A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 июл 2013
    Сообщения:
    31
    Симпатии:
    9
    А можно хранение контента оптимизировать? Сейчас из-за того, что все хранится в куче маленьких файлов с размером менее 4кб, место на диске пропадает. Реальный размер файлов и занимаемое на диске место может отличаться в два раза. Для больших HDD не смертельно, а если SSD использовать, то это становится проблемой. Можно хотя бы текст по каждому ключу не в разных файлах хранить, а в одном. Но лучше бы и другой контент как-то объединять в файлы с разделением внутри...
     
    Alex нравится это.
  13. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Можно, но тогда перестанет работать макрос статей APARTICLE, так как сейчас каждая статья - этой отдельный связный файл.
     
  14. Semen

    Semen A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    31 май 2013
    Сообщения:
    3
    Симпатии:
    0
    Подскажите что делаю не так:
    прописываю
    {PREVIEW}[APARTICLE]{/PREVIEW}

    потом вставляю {CUTWORDS-5}[PREVIEW]{/CUTWORDS} и получается что выводится целая статья
     
  15. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Попробуй так:
    {CUTWORDS-5}{PRE}[PREVIEW]{/PRE}{/CUTWORDS}
     
    Semen нравится это.
  16. dslash

    dslash A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    2 ноя 2015
    Сообщения:
    34
    Симпатии:
    3
    Хотел спросить, а возможно несколько раз использовать одни и те же данные из папки "Кэша". К примеру если впервый раз спарсил по всем ключам весь контент.
    Что бы для 100 сайтов не парсить каждый раз, а использовать уже готовый материал из папки?

    Как я понимаю: данная галочка для того и создана. А как на деле это использовать?
    [​IMG]

    Подкиньте плиз регулярочку для борьбы с китайцами.

    [​IMG]
     
  17. Антон

    Антон A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 июл 2013
    Сообщения:
    31
    Симпатии:
    9
    Если давать те же ключи и папку с контентом в настройках не менять, то в любом случае он будет переиспользоваться.
    Вне зависимости от галки. Без галки он просто будет пробовать ещё допарсить, если не будет хватать, а с галкой будет использовать только то, что есть.
     
    Topper нравится это.
  18. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Ап 2.3 Скачать
    Хранение данных адаптировано под большие объемы
    Важно:
    1) Работает только с PandoraBox 2.19.2 (доступно к скачиванию)
    Подробнее
    2) С версии <2.3 на версию 2.3 требуется миграция данных.
    Для этого:

    [​IMG]

    После миграции новую папку ap-data2 можно переименовать назад в ap-data
    Либо поменять папку хранения в настройках на новую

    3) Нужно обновить макросы пандоры в папке data\usermacro
     
    #198 Topper, 4 мар 2016
    Последнее редактирование: 4 мар 2016
    2furious, Sobesednic, List и 4 другим нравится это.
  19. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Topper, в LinkAParser.extraregex.txt теперь можно стопслова писать как я понял?
     
  20. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Да, это доп.регулярки, можно вписать туда все что не нравится в тексте. Но важно не переборщить, например не включить случайно отбраковку одного пробела или точки - так улетит весь текст
     
    #200 Topper, 4 мар 2016
    Последнее редактирование: 4 мар 2016
    Force68 нравится это.
Статус темы:
Закрыта.

Поделиться этой страницей