LinkAParser v2.5: Изменено хранение текста, добавлена утилита миграции данных Добавлена возможность указать минимальную длину статьи Добавлены макросы {APIMAGE}, {APLIMAGE} - вывод картинки если существует Добавлен макрос [APSNIPMIX-3] - взять 3 случайных снипета Фиксы и доработки Для перехода: 1. Сделать миграцию(закладка Инструменты) или почистить папку текстов 2. Обновить макросы Скачать
Каждый сайт дает статью, вот длина статьи с сайта после чистки. Чтобы не было очень коротких статей. Считается в буквах с учетом пробелов и прочих символов.
Кстати, друзья. Кто-то спрашивал как фильтрануть ссылки при парсинге. Чтобы некоторые домены исключить. Вот так: И таким макаром можно вписать много исключений, все они будут проверятся вместе. То есть только если урл не содержит первую строчку и вторую и еще сколько добавите, то урл пойдет потом на парсинг текста
Нет, пресеты в этот раз не затронуты. Разве что вот как я выше написал можете подправить фильтрацию некоторых доменов.
Кто уже опробовал, отпишитесь. А то у меня пакетка с перелинковкой длинная генерится, еще денек будет работать =(
Вроде работает всё, единственное конвертацию не тестил. И да, иногда в файлах с текстовкой после чистки присутствуют пустые строки между блоками с текстом, незнаю насколько это критично и было ли так раньше, а так всё гут. Отдельное спасибо за новую фишку с возможностью указать минимальный размер текста.
22.04.16 22:17:50 - [TXT] Сохранено файлов: 751 -- начало чистки и сохранения блока текста из 3к ключей, .......... Конец работы: 22.04.16 23:22:04 - [TXT] Тайтлов успешно сохранено: 2742 22.04.16 23:22:05 - [TXT] Осталось ключей: 135, успешно сохранено: 2765
Я думаю, что разница в скорости должна быть при генерации. Особенно, когда контента закешировано до хрена.
Это я пофисил и перезалил. Хотя это и не было критично. Кстати кнопку массовой чистки я cделал по заказу dslash, это он ее профинансировал.
Кстати, если создать в папке пандоры файл "LinkAParser.Restart.bat" с содержимым: Код: REM Поправить пути не забудьте ) taskkill /IM aparser.exe /F start "" /D"c:\aparser" "c:\aparser\aparser.exe" То LAP будет запускать незапущенный апарсер или перезапускать зависший апарсер. Этот метод работает только на винде и только если апарсер стоит на том же компе, где и пандора
Еще небольшой момент по тайтлам. В версии 2.4 была такая доработка: Парсинг тайтлов доработан, работает в 2 раза быстрее за счет сокращения числа запросов При этом в той версии на закладке пресетов я обновил пример пресета, при этом поменялось его имя: GetTextsAndTitles То есть пресет на закладке Текст теперь умеет все делать сам за 1 запрос: и парсить текст и парсить тайтлы. После импорта этого обновленного пресета в апарсере появляется диалог для указания имени пресета. По дефолту он там: GetTextsAndTitles Далее можно(и нужно) сделать 1 вариант из 2х: 1. Либо назвать его как как раньше "GetTexts" и перезаписать старый 2. Либо не переименовывать, оставить GetTextsAndTitles , но тогда в LAP прописать его тут http://i.imgur.com/dhMTcRa.png
Отпишусь по скорости: Прошлая версия, дор 20к стр. парсинг текста и тайтлов: 131 мин. На текущей версии с теми же параметрами: 114 мин. Это без генерации, только работа лап. В итоге 17 минут прибавки - это гуд!
LAP 2.5.1 Настройка потоков вынесена в интерфейс LinkAParser - более простая настройка потоков. Ничего кроме .exe файла обновлять не нужно. Скачать Что поменялось: Если идея хорошая, то отлично. Если плохая по какой-то причине(по какой?), то могу вернуть как было (были названия конфигов потоков). Жду комментариев.