Улучшение Обработка готовых баз

  • Автор темы Автор темы dady
  • Дата начала Дата начала

Нужно?

  • Да

    Голосов: 39 95,1%
  • нет

    Голосов: 2 4,9%
  • Всё равно

    Голосов: 0 0,0%

  • Всего проголосовало
    41

dady

A-Parser Pro License
A-Parser Pro
Было бы отлично если бы присутствовали тулузы для работы с базами, удаление дублей (по линку \ по домену \ по регулярке) , обьединение, удаление или замена текста по реглярке, и прочее. Из имеющегося в паблике софта 99% не могут работать с огромными базами в мильёны строк остальные сложные в настройке ну и собсно хочется иметь всё в одном.
 
скидывайте сюда все необходимые варианты обработки базы
 
Удаление дублей (полностью по строке, по домену, по урлу до параметров и т.д.)
Объединение баз
Перемешивание
Сортировка по алфавиту
Разбивка по количеству строк/частей
Выборка из по списку слов (есть вхождение/нет вхождения)
Создание базы С, содержащей только ссылки из базы А и Б (Пересечение)
 
  • Like
Реакции: Max
еще:
вычитание базы: из A вычесть B и получить C
 
Выборка баз сайтов по регулярке, например, мне нужны с базы выбрать только домены 3-го уровня, или удалять домены с 2/3 и тд вложениями http://site.ru/soft/dorwey/blia.html или выбрать с одним)
 
Удаление теста по регулярке обязательно надо.
 
Можно даже слева отдельную кнопку сделать для работы с результатами и там бы еще пригодились опции касательно файлов
удалить
скопировать в queries
скачать
т.к. сейчас задание может уползти далеко, а файл остался
 
1. Удаление всех строк с указанными словами/фразами + наоборот же оставить все строки с ними и сохранить в отдельный файл.

2. Удаление всех строк длиннее ХХ символов или же наоборот.

3. Раздублить по доменам и урезать все строки до домена например.
 
Ребята вот вам тулза уже готовая , функционал супер _http://newox.ru/kwk.php ограничение строк ~ 20 лямов думаю этого более чем достаточно.
Утилитка без вирусов, на вирус тотал определяется некоторыми как троян, ну это бред, мне эта утитита тоже стала интересна и я ее отправил на исследование в несколько антивирусных лабораторий, пришел отчет - все чисто, так что не сцо )) юзайте.
 
Внедрить бы в квк регулярки была б незаменима)
 
Было бы неплохо еще такую фичу сделать, обработка спарсеренного по блек листу
 
Назад
Верх