1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

А-Парсер и Пандора!

Тема в разделе "Трёп", создана пользователем Topper, 23 апр 2015.

Статус темы:
Закрыта.
  1. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Товарищи, при подобных симптомах обратите внимание на то что модуль платный.
    После покупки все заработает.
    Купить можно обратившись в личку на этом форуме или в саппорт пандоры.
     
  2. snifram

    snifram A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    29 дек 2015
    Сообщения:
    14
    Симпатии:
    6
    вот вот )))) - после покупки все работает, Topper - отдельное спасибо за помощь в настройке и терпении ...
     
  3. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Ап LinkAParser 2.4 (И ап пандоры)
    • Парсинг тайтлов доработан, работает в 2 раза быстрее за счет сокращения числа запросов
    • Добавлена возможность расширить чистку тайтлов своими собственными регулярками.
    • Для этого указать собственные регулярки в файле LinkAParser.titleregex.txt. Пример присутствует.
    • Настройка доп.регулярок теперь понимает модификатор регистрозависимости
    Нужно обновить и пандору и модуль

    Важно:
    1) Пресет пансига текста нужно переимпортировать
    2) Тайтлы парсятся автоматически, указывать пресет по ним теперь не нужно
     
    btr, kashim, List и 2 другим нравится это.
  4. Semen

    Semen A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    31 май 2013
    Сообщения:
    3
    Симпатии:
    0
    сейчас собирает в 2 прохода - ссылки отдельно снипеты отдельно, было бы неплохо объединить в один пресет, реально так сделать в LinkAParser?
     
  5. 2furious

    2furious A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    3 июл 2015
    Сообщения:
    15
    Симпатии:
    4
    Народ, такая проблема, при генерации через ЛАП из файла на 5к кеев генерится рандомное количество страниц от 2500 до 4000, в настройках пандоры галка не стоит что брать какую то часть,то есть считываться должен весь файл целиком. В чем проблема может?
     
  6. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Реально, но потеряется возможность собрать снипеты с 1 пс, а ссылки - с другой. Не хотелось бы..
     
    Force68 нравится это.
  7. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Скорей всего изза

    [​IMG]
     
  8. 2furious

    2furious A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    3 июл 2015
    Сообщения:
    15
    Симпатии:
    4
    Так а правильно эти галки убрать вообще?
    у меня первые 3 стоят

    upd. убрал все галки 5007 файлов после генерации, а теперь вопрос
    Для чего эти галки могут пригодится? Какова их польза?
     
    #228 2furious, 15 мар 2016
    Последнее редактирование: 15 мар 2016
  9. 2furious

    2furious A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    3 июл 2015
    Сообщения:
    15
    Симпатии:
    4
    Возможна ли в сниппеты вставка гиперссылок на другие страницы дорвея? Настройки в пандоре текст как есть, процент вставки ссылок поставил 100, все равно не появляются
     
  10. Антон

    Антон A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    7 июл 2013
    Сообщения:
    31
    Симпатии:
    9
    Накидайте кто-нибудь своих регулярок для LinkAParser.extraregex.txt, пожалуйста.
     
  11. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Topper, а можно придумать такой макрос - [UNIQAPTITLE], а то часто бывает что если использовать на странице насколько [APTITLE] дорген ставит одинаковые
     
  12. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    З.Ы. и можно ли такую регулярку положить в LinkAParser.titleregex.txt
    чтоб она удаляла строки, меньше заданного количества символов и возможно ли регуляркой сделать чтоб первая буква была в предложении заглавной а остальные символы строчными?
     
  13. Oopssik

    Oopssik A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    16 дек 2013
    Сообщения:
    26
    Симпатии:
    6
    галка стоит и все равно такие тайтлы с иероглифами
    ???¶?µ???µN??????? - ???µN??µ??N??µ ?°???°?»?????? ????N???????N? ?»?µ???°N?N?N???. ???°?±?»??N??° ???¶?µ???µN?????????
     
  14. Oopssik

    Oopssik A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    16 дек 2013
    Сообщения:
    26
    Симпатии:
    6
    ^.{0,5}$ //Удалять предложения длинной менее 6 символов
    ^[^А-ЯЁA-Za-z] //Удалять предложения, начинающиеся не с заглавной буквы
    [А-ЯЁ]{2} //Удалять предложения, в которых присутствует 2 и более подряд идущих заглавных букв
    [^а-я0-9ёА-ЯЁA-Za-z \-\:\(\)\"\—\…,] //Удалять предложения, в которых присутствуют любые символы отличные от русских букв, цифр, тире и запятой
    ^([^\s]+\s?){0,4}$ //Удалять предложения, в которых менее 4 слов

    поделитесь пожалуйста регулярками для тайтлов, буду очень благодарен (особенно от 404 ошибки)
     
    #234 Oopssik, 23 мар 2016
    Последнее редактирование: 23 мар 2016
    btr, Антон и Force68 нравится это.
  15. dslash

    dslash A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    2 ноя 2015
    Сообщения:
    34
    Симпатии:
    3
    Было бы круто, если б домены вырезались из спаршенных "Тайтлов" и заменялись на макрос [HOST]
     
  16. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
  17. Topper

    Topper Active Member

    Регистрация:
    15 апр 2015
    Сообщения:
    112
    Симпатии:
    172
    Они выкидывают ключ из генерации если по нему не спарсился требуемый этими галками контент.
    А можно, сделаю чуть позже [APUNIQTITLE]
    Давай конкретной 1 сайт разберем насчет этого. Есть урл или ключ для теста?
    Регулярки работают только на чистку, а эти вещи можно сделать прямо в макросе тайтлов.
    Только вот вопрос насчет "первая буква была в предложении заглавной а остальные символы строчными" - это же не естественное ограничение. Белые сайты так не делают, у многих сайтов тайтлы и заголовки кричат и капсят. Стоит ли?
     
    #237 Topper, 25 мар 2016
    Последнее редактирование: 25 мар 2016
    Force68 нравится это.
  18. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Попробую тогда прямо в персенте регулярку покрутить, а тайтлы спаршенные просто у меня на страницах в качестве заголовков и в тексте используются, поэтому и хотелось их привести к стандартному виду.
     
  19. Oopssik

    Oopssik A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    16 дек 2013
    Сообщения:
    26
    Симпатии:
    6
    Я уже решил проблему вообще не парсить тайтлы, у меня просто с регулярками проблемы были вот он и парсил такие иероглифы. Я уже все удалил, пример к сожалению дать не смогу.
     
  20. dslash

    dslash A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    2 ноя 2015
    Сообщения:
    34
    Симпатии:
    3
    А после обновы 2.4 макрос [APTITLE] не менялся на другой? А то у меня все сгенерилось, кроме тайтлов. Где макрос был, осталось пустое поле

    [​IMG]

    [​IMG]

    Это на всем доре. Ща пробую второй раз распарсить, мало ли сбой какой.
     
Статус темы:
Закрыта.

Поделиться этой страницей