А-Парсер и Пандора!

  • Автор темы Автор темы Topper
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.
самое интересное что у меня такого файла нету в коре пандоры нету, файлы LinkAParser в корень пандоры ставил и настройки запускал
Товарищи, при подобных симптомах обратите внимание на то что модуль платный.
После покупки все заработает.
Купить можно обратившись в личку на этом форуме или в саппорт пандоры.
 
вот вот )))) - после покупки все работает, Topper - отдельное спасибо за помощь в настройке и терпении ...
 
Ап LinkAParser 2.4 (И ап пандоры)
  • Парсинг тайтлов доработан, работает в 2 раза быстрее за счет сокращения числа запросов
  • Добавлена возможность расширить чистку тайтлов своими собственными регулярками.
  • Для этого указать собственные регулярки в файле LinkAParser.titleregex.txt. Пример присутствует.
  • Настройка доп.регулярок теперь понимает модификатор регистрозависимости
Нужно обновить и пандору и модуль

Важно:
1) Пресет пансига текста нужно переимпортировать
2) Тайтлы парсятся автоматически, указывать пресет по ним теперь не нужно
 
сейчас собирает в 2 прохода - ссылки отдельно снипеты отдельно, было бы неплохо объединить в один пресет, реально так сделать в LinkAParser?
 
Народ, такая проблема, при генерации через ЛАП из файла на 5к кеев генерится рандомное количество страниц от 2500 до 4000, в настройках пандоры галка не стоит что брать какую то часть,то есть считываться должен весь файл целиком. В чем проблема может?
 
сейчас собирает в 2 прохода - ссылки отдельно снипеты отдельно, было бы неплохо объединить в один пресет, реально так сделать в LinkAParser?
Реально, но потеряется возможность собрать снипеты с 1 пс, а ссылки - с другой. Не хотелось бы..
 
Народ, такая проблема, при генерации через ЛАП из файла на 5к кеев генерится рандомное количество страниц от 2500 до 4000, в настройках пандоры галка не стоит что брать какую то часть,то есть считываться должен весь файл целиком. В чем проблема может?
Скорей всего изза

wLDTt3a.png
 
Так а правильно эти галки убрать вообще?
у меня первые 3 стоят

upd. убрал все галки 5007 файлов после генерации, а теперь вопрос
Для чего эти галки могут пригодится? Какова их польза?
 
Последнее редактирование:
Возможна ли в сниппеты вставка гиперссылок на другие страницы дорвея? Настройки в пандоре текст как есть, процент вставки ссылок поставил 100, все равно не появляются
 
Накидайте кто-нибудь своих регулярок для LinkAParser.extraregex.txt, пожалуйста.
 
Topper, а можно придумать такой макрос - [UNIQAPTITLE], а то часто бывает что если использовать на странице насколько [APTITLE] дорген ставит одинаковые
 
З.Ы. и можно ли такую регулярку положить в LinkAParser.titleregex.txt
чтоб она удаляла строки, меньше заданного количества символов и возможно ли регуляркой сделать чтоб первая буква была в предложении заглавной а остальные символы строчными?
 
Накидайте кто-нибудь своих регулярок для LinkAParser.extraregex.txt, пожалуйста.
^.{0,5}$ //Удалять предложения длинной менее 6 символов
^[^А-ЯЁA-Za-z] //Удалять предложения, начинающиеся не с заглавной буквы
[А-ЯЁ]{2} //Удалять предложения, в которых присутствует 2 и более подряд идущих заглавных букв
[^а-я0-9ёА-ЯЁA-Za-z \-\:\(\)\"\—\…,] //Удалять предложения, в которых присутствуют любые символы отличные от русских букв, цифр, тире и запятой
^([^\s]+\s?){0,4}$ //Удалять предложения, в которых менее 4 слов

поделитесь пожалуйста регулярками для тайтлов, буду очень благодарен (особенно от 404 ошибки)
 
Последнее редактирование:
Было бы круто, если б домены вырезались из спаршенных "Тайтлов" и заменялись на макрос [HOST]
 
Для чего эти галки могут пригодится? Какова их польза?
Они выкидывают ключ из генерации если по нему не спарсился требуемый этими галками контент.
Topper, а можно придумать такой макрос - [UNIQAPTITLE]
А можно, сделаю чуть позже [APUNIQTITLE]
галка стоит и все равно такие тайтлы с иероглифами
Давай конкретной 1 сайт разберем насчет этого. Есть урл или ключ для теста?
З.Ы. и можно ли такую регулярку положить в LinkAParser.titleregex.txt
чтоб она удаляла строки, меньше заданного количества символов и возможно ли регуляркой сделать чтоб первая буква была в предложении заглавной а остальные символы строчными?
Регулярки работают только на чистку, а эти вещи можно сделать прямо в макросе тайтлов.
Только вот вопрос насчет "первая буква была в предложении заглавной а остальные символы строчными" - это же не естественное ограничение. Белые сайты так не делают, у многих сайтов тайтлы и заголовки кричат и капсят. Стоит ли?
 
Последнее редактирование:
Регулярки работают только на чистку, а эти вещи можно сделать прямо в макросе тайтлов.
Только вот вопрос насчет "первая буква была в предложении заглавной а остальные символы строчными" - это же не естественное ограничение. Белые сайты так не делают, у многих сайтов тайтлы и заголовки кричат и капсят. Стоит ли?

Попробую тогда прямо в персенте регулярку покрутить, а тайтлы спаршенные просто у меня на страницах в качестве заголовков и в тексте используются, поэтому и хотелось их привести к стандартному виду.
 
Давай конкретной 1 сайт разберем насчет этого. Есть урл или ключ для теста?
Я уже решил проблему вообще не парсить тайтлы, у меня просто с регулярками проблемы были вот он и парсил такие иероглифы. Я уже все удалил, пример к сожалению дать не смогу.
 
А после обновы 2.4 макрос [APTITLE] не менялся на другой? А то у меня все сгенерилось, кроме тайтлов. Где макрос был, осталось пустое поле

9785ff5e47.jpg


57261ef8f5.jpg


Это на всем доре. Ща пробую второй раз распарсить, мало ли сбой какой.
 
Статус
Закрыто для дальнейших ответов.
Назад
Верх