А-Парсер и Пандора!

  • Автор темы Автор темы Topper
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.
Значит небольшая проблемка образовалась.. Миграция все же нужна получается.. Как минимум для bigve
 
LinkAParser v2.5:

Изменено хранение текста, добавлена утилита миграции данных
Добавлена возможность указать минимальную длину статьи
Добавлены макросы {APIMAGE}, {APLIMAGE} - вывод картинки если существует
Добавлен макрос [APSNIPMIX-3] - взять 3 случайных снипета
Фиксы и доработки

Для перехода:
1. Сделать миграцию(закладка Инструменты) или почистить папку текстов
2. Обновить макросы

Скачать
 
Последнее редактирование:
Topper, сенкс, счас затестим, а "минимальная длинна блока текста" - это как и в чем считается?
 
Каждый сайт дает статью, вот длина статьи с сайта после чистки.
Чтобы не было очень коротких статей. Считается в буквах с учетом пробелов и прочих символов.
 
  • Like
Реакции: List
Кстати, друзья.

Кто-то спрашивал как фильтрануть ссылки при парсинге.
Чтобы некоторые домены исключить.

Вот так:

3EayMeh.png


И таким макаром можно вписать много исключений, все они будут проверятся вместе.
То есть только если урл не содержит первую строчку и вторую и еще сколько добавите, то урл пойдет потом на парсинг текста
 
Кто уже опробовал, отпишитесь.
А то у меня пакетка с перелинковкой длинная генерится, еще денек будет работать =(
 
Вроде работает всё, единственное конвертацию не тестил. И да, иногда в файлах с текстовкой после чистки присутствуют пустые строки между блоками с текстом, незнаю насколько это критично и было ли так раньше, а так всё гут. Отдельное спасибо за новую фишку с возможностью указать минимальный размер текста.
 
Последнее редактирование:
22.04.16 22:17:50 - [TXT] Сохранено файлов: 751 -- начало чистки и сохранения блока текста из 3к ключей,
..........
Конец работы:
22.04.16 23:22:04 - [TXT] Тайтлов успешно сохранено: 2742
22.04.16 23:22:05 - [TXT] Осталось ключей: 135, успешно сохранено: 2765
 
Я думаю, что разница в скорости должна быть при генерации. Особенно, когда контента закешировано до хрена.
 
И да, иногда в файлах с текстовкой после чистки присутствуют пустые строки между блоками с текстом, незнаю насколько это критично и было ли так раньше, а так всё гут.
Это я пофисил и перезалил. Хотя это и не было критично.
Кстати кнопку массовой чистки я cделал по заказу dslash, это он ее профинансировал.
 
Кстати, если создать в папке пандоры файл "LinkAParser.Restart.bat" с содержимым:
Код:
REM Поправить пути не забудьте )
taskkill /IM aparser.exe /F
start "" /D"c:\aparser" "c:\aparser\aparser.exe"

То LAP будет запускать незапущенный апарсер или перезапускать зависший апарсер.
Этот метод работает только на винде и только если апарсер стоит на том же компе, где и пандора
 
Еще небольшой момент по тайтлам.

В версии 2.4 была такая доработка:
Парсинг тайтлов доработан, работает в 2 раза быстрее за счет сокращения числа запросов

При этом в той версии на закладке пресетов я обновил пример пресета, при этом поменялось его имя: GetTextsAndTitles
То есть пресет на закладке Текст теперь умеет все делать сам за 1 запрос: и парсить текст и парсить тайтлы.

После импорта этого обновленного пресета в апарсере появляется диалог для указания имени пресета. По дефолту он там: GetTextsAndTitles

Далее можно(и нужно) сделать 1 вариант из 2х:
1. Либо назвать его как как раньше "GetTexts" и перезаписать старый
2. Либо не переименовывать, оставить GetTextsAndTitles , но тогда в LAP прописать его тут http://i.imgur.com/dhMTcRa.png
 
Отпишусь по скорости:
Прошлая версия, дор 20к стр. парсинг текста и тайтлов: 131 мин.
На текущей версии с теми же параметрами: 114 мин.
Это без генерации, только работа лап.
В итоге 17 минут прибавки - это гуд!
 
LAP 2.5.1

Настройка потоков вынесена в интерфейс LinkAParser - более простая настройка потоков.

Ничего кроме .exe файла обновлять не нужно.

Скачать

Что поменялось:
AucIqjO.png


Если идея хорошая, то отлично. Если плохая по какой-то причине(по какой?), то могу вернуть как было (были названия конфигов потоков).

Жду комментариев.
 
Последнее редактирование:
Статус
Закрыто для дальнейших ответов.
Назад
Верх