Ищу KeyWordKeeper, а лучше его прокаченный аналог. Обсуждаем софт для обработки тестовых файлов.

LightWood

Moderator
Регистрация
04.11.2010
Сообщения
2 382
Благодарностей
915
Баллы
113
Ищу KeyWordKeeper, более известный как KWK.
Софтина для обработки текстовых файлов. А то что-то последнее время иногда некоторые вещи начал руками делать, без автоматизации.


У себя в закромах не нашел exe. Начал гуглить и всё либо под хайдом, либо при проверке через virustotal зараженное пачкой вирусов. Час перебирать ссылки в гугле и чекать файлы, не хочется.
Найдется у кого-то чистый?

Или пожалуйста посоветуйте какой-то аналог. Желательно более шустрый и многофункциональный.
Через зенно все вопросы тоже решаются эти и часто более функционально, но иногда действительно быстрее kwk запустить и что-то простое через него сделать, чем запускать зенно, вспоминать название шаба, читать "readme.txt", чтобы вспомнить какие файлы с какими названиями положить.
 

zennoman

Client
Регистрация
14.09.2012
Сообщения
34
Благодарностей
25
Баллы
18
  • Спасибо
Реакции: LightWood и Oleg1987

orka13

Client
Регистрация
07.05.2015
Сообщения
2 160
Благодарностей
2 159
Баллы
113
Среди аналогов советую Penguin http://x-parser.ru/software/9-penguin.html . Но там последняя версия не запоминает в какой кодировке хранить, постоянно надо вручную указывать (по умолчанию ANSI), автор обещал поправить в будущем.
 
  • Спасибо
Реакции: Sdelkin и LightWood

vadim1281

Client
Регистрация
03.12.2015
Сообщения
138
Благодарностей
41
Баллы
28

daymos

Client
Регистрация
11.11.2009
Сообщения
805
Благодарностей
239
Баллы
43
текстпайп про
 
  • Спасибо
Реакции: supsen и LightWood

LightWood

Moderator
Регистрация
04.11.2010
Сообщения
2 382
Благодарностей
915
Баллы
113
Спасибо, парни, НО:
http://rgho.st/8JNQhBzss

В своё время качал с официального сайта.
Вирустотал показывает 7 заражений

Вирустотал показывает 3 заражения файла

Разве так должно быть? или я чего-то тут не понимаю?


Среди аналогов советую Penguin http://x-parser.ru/software/9-penguin.html . Но там последняя версия не запоминает в какой кодировке хранить, постоянно надо вручную указывать (по умолчанию ANSI), автор обещал поправить в будущем.
Спасибо. То, что искал думаю. Описание у софта бодрое. TextPipe PRO так вообще какой-то трансформер. Заюзаю.
 

zennoman

Client
Регистрация
14.09.2012
Сообщения
34
Благодарностей
25
Баллы
18
Вирустотал показывает 7 заражений
Слышал что-нибудь про ложные срабатывания? :-)

У меня проверка показала 5 (5 / 57) заражений, выявленных какими-то нонейм "антивирусами" (AegisLab, AVware, Baidu, Rising, VIPRE), при том, что даже знатный параноик Касперский промолчал. Но решать тебе. Скачана эта версия мной была 100% с оригинального сайта, когда он ещё работал.
 
  • Спасибо
Реакции: LightWood

vadim1281

Client
Регистрация
03.12.2015
Сообщения
138
Благодарностей
41
Баллы
28
у меня стоит, сам им пользуюсь долгое время, никаких вирусов не было выявлено
 
  • Спасибо
Реакции: LightWood

orka13

Client
Регистрация
07.05.2015
Сообщения
2 160
Благодарностей
2 159
Баллы
113
Ну раз уж такая пянка пошла.... Опыта у меня много, свои базы ключей собирал, максимальные файлы с которыми работал – ~1 миллиард строк (~100 гиг). Вот мой опыт:

НЕ используйте:

"TextPipe PRO" - типа крутой, но чертовски медленно обрабатывает крупные файлы (больше 100 мб). Особенно на функции перемешивания. Он универсален, многофункционален. Но сильно проигрывает другим утилитам в быстродействии, потому уже больше года даже не запускал его. Он был актуален лет десять назад, сейчас говно говном. Его фишка - что можно сохранить сценарий с несколькими етапами обработки файла. Но на той же Зенке + C# блоках быстрее получится сделать подобное. А крупные файли они оба не скушают.

KWK KeyWordKeeper_5B5 - он на больших файлах режет\ковыряет строки в местах склейки, мне он очень жизнь попортил таким багом скрытым. Старая верия 4.х нормально работала, но с очень большими файлами просто стопорилась в начале обработке.

Вот актуальный список утилит для обработки txt:

Penguin - купил несколько лицензий (ПК + сервер), так как фриверсия имеет ограничения по функционалу\обьему файлов. Удаляю дубли, перемешиваю, делаю выборку по регуляркам. Правда при перемешивании он сильно жрет память (32 ГБ у меня), так что даю ему файлы не больше 10 ГБ. С остальными функциями проблем с размерами не заметил.

smf_sortcleaner.bat.exe - самая быстрая чистка на дубли в файлах до ~5-10 гиг у этого батника, все остальные мелкие проги отдыхают (Unified List Manager, Fast_Duplicates_Remover_v0.1, DupKill, truesort, tdk_Text Duplicate Killer). Он все в память грузит. Так что желательно через диспетчер задач смотреть, если память при обработке более чем на 90% заполнена, то он затягивает обработку, может и не закончить. Обычно если файл весил 5 гб, то памяти на него шло ~10 гб.

gnuwin32 - если файлы очень больше (тестировал на 10-100 гиг, Penguin еще тогда не существовал), то удобно удаление дублей на линуксе делать через команду «sort». Или как я сделал: установил себе на винду юникские консольные команды в пакете - http://gnuwin32.sourceforge.net .
Потом командой в CMD обработал (текстовку в папку «c:\33» закинул) :
Код:
sort -u -T c:\33 -o filename_no_dubli.txt filename.txt
Делает долго, но зато пределов в размере нет. Чистил так собственную базу метрики на 40 гиг (в финале). Где-то сутки вроде обрабатывало. ОЗП не грузить, просто медленно себе копирует файлы частями в пределах HDD, потихоньку чистя дубликаты. Ну и куча других функций там есть, типа выборки по списку регулярок и т.д.

EmEditor - текстовый редактор для работы с регулярками\автозаменой в больших текстовых файлах. Ищите та торентах версию с лекарством.

Amazing Keywords - купил лицензию для преобразования в формат AKDB и сверхбыстрой выборки из баз ключей.
 

LightWood

Moderator
Регистрация
04.11.2010
Сообщения
2 382
Благодарностей
915
Баллы
113
Слышал что-нибудь про ложные срабатывания? :-)

У меня проверка показала 5 (5 / 57) заражений, выявленных какими-то нонейм "антивирусами" (AegisLab, AVware, Baidu, Rising, VIPRE), при том, что даже знатный параноик Касперский промолчал. Но решать тебе. Скачана эта версия мной была 100% с оригинального сайта, когда он ещё работал.
у меня стоит, сам им пользуюсь долгое время, никаких вирусов не было выявлено
Благодарю. Учел.

Stepan, очень полезно. Спасибо.
 

backoff

Client
Регистрация
20.04.2015
Сообщения
5 914
Благодарностей
6 381
Баллы
113
EmEditor - текстовый редактор для работы с регулярками\автозаменой в больших текстовых файлах. Ищите та торентах версию с лекарством.
дружище, очередной раз спасибо, просто спас
 
  • Спасибо
Реакции: TIIGR, Gulid и orka13

orka13

Client
Регистрация
07.05.2015
Сообщения
2 160
Благодарностей
2 159
Баллы
113
дружище, очередной раз спасибо, просто спас
Ну раз пошел интерес к EmEditor, то скину здесь еще подсказки по работе с ним на примере таблиц с разделителем {-String.Tab-}:
"как в EmEditor отфильтровать строки в таблице по нужной фразе". Я ошибочно считал раньше, что удобной привычной фильтрации там нет, предполагается что для удобства можно отрывок до 1 млн строк импортировать в EXCEL («Данные > Из текста > Открыть файл > С разделителями, Unicode UTF-8 > Знак табуляции > Готово»). А если все же охота в этом редакторе то я делал через «Поиск>Закладка» в выделенном фрагменте (выделял перед этим нужный столбец, два раза кликнув над ним в панели линейки). И потом уже строки с закладкой копировал в отдельный документ («Правка > Закладки > Документа > Копировать строки»).

Но недавно я поискал в сети, и открыл для себя более удобный метод. Всего 4 клика, и получаем нужную фильтрацию в пределах любого столбца:



Кроме того, там есть поддержка регулярных выражений, так что если надо только какое-то слово искать, без родительских слов, в которые входит это слово («банк», но НЕ «банкомат»), то укажите вокруг нужного слова границы слов (символы «\b» на языке регулярок). Как на скрине:


Чтобы выделит несколько значений, используйте там расширенный фильтр, или символ «или» в регулярках: «|». Пример (регистр роли не играет):
Код:
\b(банк|Денежные переводы|обмен валюты)\b
 
  • Спасибо
Реакции: Nike59 и backoff

backoff

Client
Регистрация
20.04.2015
Сообщения
5 914
Благодарностей
6 381
Баллы
113
подскажи как удалить все пустые строки? не могу найти
 
  • Спасибо
Реакции: TIIGR и Gulid

orka13

Client
Регистрация
07.05.2015
Сообщения
2 160
Благодарностей
2 159
Баллы
113
в Notepad++:
"Правка > операции со строками > удалить пустые строки"

В EmEditor:
Меню поиска, активируем режим «регулярные выражения», вводим:
Код:
^$
Потом жмем «закладка».
Потом «Правка > Закладки > Документа > Удалить строки с закладками».
 

backoff

Client
Регистрация
20.04.2015
Сообщения
5 914
Благодарностей
6 381
Баллы
113
Чет не помогло.

все ввел, не нашел где кнопка "закладка"
попробовал через правку, написало, что было удалено всего 1 строка
попробовал просто заменить с регуляркой, пишет что заменил, но строки остались

 
  • Спасибо
Реакции: TIIGR и Gulid

orka13

Client
Регистрация
07.05.2015
Сообщения
2 160
Благодарностей
2 159
Баллы
113
"Меню поиска" != "Меню замены".
"Ctrl+F" != "Ctrl+H"
 

backoff

Client
Регистрация
20.04.2015
Сообщения
5 914
Благодарностей
6 381
Баллы
113
блин так бы и писал
ctrl + F -> вводим символы -> закладка )))

я просто привык к горячим клавишам, не сразу понял что нужно ))

ps \ почему тогда в замене не работает эта тема ? ^$ заменить на пустоту
 
  • Спасибо
Реакции: TIIGR и Gulid

orka13

Client
Регистрация
07.05.2015
Сообщения
2 160
Благодарностей
2 159
Баллы
113
Да не делай ты через замену, там могут всплыть косяки на юникс-документах с их переносами строк. Вот регуляряка для замены пустой строки вместе с переносом на пустоту, но хз насколько она универсальная:
^[\r\n]+
 

backoff

Client
Регистрация
20.04.2015
Сообщения
5 914
Благодарностей
6 381
Баллы
113
Сделал как ты описал, все огонь!

Можно как-то файл разделить на несколько файлов? например по 5 млн строк чтоб было
 
  • Спасибо
Реакции: TIIGR и Gulid

kapelan28

Client
Регистрация
22.09.2015
Сообщения
469
Благодарностей
185
Баллы
43
Можно как-то файл разделить на несколько файлов? например по 5 млн строк чтоб было
В Penguin (платной версии) можно порезать файл по количеству строк. На счет других прог - не подскажу.
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 160
Благодарностей
2 159
Баллы
113
В Penguin (платной версии) можно порезать файл по количеству строк. На счет других прог - не подскажу.
Всегда проверяйте им же количество строк в сумме в выходных файлах, а то он у меня на всех последних версиях очень изредка на крупных файлах (пару гб) теряет пару строк после любой операции с файлом. Мелочь, но все же предупрежу. Старая 6 версия Пингвина и 4 версия KeyWordKeeper норм срабатывают.
 
  • Спасибо
Реакции: kapelan28

inotoxic

Client
Регистрация
20.04.2015
Сообщения
354
Благодарностей
162
Баллы
43

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 039
Баллы
113
батник есть такой в три строки который разделит по нужному значению в секунды ))
 

backoff

Client
Регистрация
20.04.2015
Сообщения
5 914
Благодарностей
6 381
Баллы
113
  • Спасибо
Реакции: TIIGR и Gulid

orka13

Client
Регистрация
07.05.2015
Сообщения
2 160
Благодарностей
2 159
Баллы
113

backoff

Client
Регистрация
20.04.2015
Сообщения
5 914
Благодарностей
6 381
Баллы
113
  • Спасибо
Реакции: TIIGR и Gulid

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 039
Баллы
113

backoff

Client
Регистрация
20.04.2015
Сообщения
5 914
Благодарностей
6 381
Баллы
113
снова начинаешь )), я реально пытаюсь найти его и сам уже запутался в этих дисках и папках ))
не, я ваще подумал что ушел куданить :-)
это так, текст для подбадривания )))
 
  • Спасибо
Реакции: TIIGR и Gulid

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 039
Баллы
113
нашёл ))
сейчас выложу в отдельной ветке, немного опишу
там немного не правильно про строки написал, не тот батник описал тут, но не сильно различается
 

backoff

Client
Регистрация
20.04.2015
Сообщения
5 914
Благодарностей
6 381
Баллы
113

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)