Было бы отлично если бы присутствовали тулузы для работы с базами, удаление дублей (по линку \ по домену \ по регулярке) , обьединение, удаление или замена текста по реглярке, и прочее. Из имеющегося в паблике софта 99% не могут работать с огромными базами в мильёны строк остальные сложные в настройке ну и собсно хочется иметь всё в одном.
Удаление дублей (полностью по строке, по домену, по урлу до параметров и т.д.) Объединение баз Перемешивание Сортировка по алфавиту Разбивка по количеству строк/частей Выборка из по списку слов (есть вхождение/нет вхождения) Создание базы С, содержащей только ссылки из базы А и Б (Пересечение)
Выборка баз сайтов по регулярке, например, мне нужны с базы выбрать только домены 3-го уровня, или удалять домены с 2/3 и тд вложениями http://site.ru/soft/dorwey/blia.html или выбрать с одним)
Можно даже слева отдельную кнопку сделать для работы с результатами и там бы еще пригодились опции касательно файлов удалить скопировать в queries скачать т.к. сейчас задание может уползти далеко, а файл остался
1. Удаление всех строк с указанными словами/фразами + наоборот же оставить все строки с ними и сохранить в отдельный файл. 2. Удаление всех строк длиннее ХХ символов или же наоборот. 3. Раздублить по доменам и урезать все строки до домена например.
Ребята вот вам тулза уже готовая , функционал супер _http://newox.ru/kwk.php ограничение строк ~ 20 лямов думаю этого более чем достаточно. Утилитка без вирусов, на вирус тотал определяется некоторыми как троян, ну это бред, мне эта утитита тоже стала интересна и я ее отправил на исследование в несколько антивирусных лабораторий, пришел отчет - все чисто, так что не сцо )) юзайте.