Ищу KeyWordKeeper, а лучше его прокаченный аналог. Обсуждаем софт для обработки тестовых файлов.

Viking01

Client
Регистрация
19.08.2017
Сообщения
228
Благодарностей
151
Баллы
43
Для обработки файлов пользуюсь пингвином + удобная функция кластеризации - разбить запросы по группам
 

Dexio

Client
Регистрация
09.05.2014
Сообщения
1 254
Благодарностей
220
Баллы
63
А бесплатного пингвина или аналогов никто не видел?
Мне надо файл слепить большой или перемешать раз в месяц. неужели 800р это стоит...
 

drprime

Client
Регистрация
13.09.2016
Сообщения
138
Благодарностей
47
Баллы
28
Друзья, апну тему. Подскажите чем можно удалить дубли в файлах 10гб+, где уникальных будет 6-8гб. Пингвин не справляется, хотя всех ресурсов ему хватает. Заметил зависимость пингвина от того, сколько будет весить файл в остатке. Например, файл 10 гб, остаток без дублей 2 - нормально отрабатывает. Если остаток больше 5гб(предположительно) - обрывается на нехватке памяти, хотя ее много
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 164
Благодарностей
2 164
Баллы
113
gnuwin32
Или сожми в архив и залей на какой-то быстрый FTP/Облако файлы и урл в личку, я попробую сделать для теста тем же пингвином на серваке с 128GB ОЗУ.
 

drprime

Client
Регистрация
13.09.2016
Сообщения
138
Благодарностей
47
Баллы
28
gnuwin32
Или сожми в архив и залей на какой-то быстрый FTP/Облако файлы и урл в личку, я попробую сделать для теста тем же пингвином на серваке с 128GB ОЗУ.
Не поможет, тестил на серваке с 80 гб озу. Проблема в особенностях шарпа, как мне обьяснил разраб пингвина
 
Последнее редактирование:

AGAT

Активный пользователь
Регистрация
17.11.2018
Сообщения
135
Благодарностей
33
Баллы
28
Друзья, апну тему. Подскажите чем можно удалить дубли в файлах 10гб+, где уникальных будет 6-8гб. Пингвин не справляется, хотя всех ресурсов ему хватает. Заметил зависимость пингвина от того, сколько будет весить файл в остатке. Например, файл 10 гб, остаток без дублей 2 - нормально отрабатывает. Если остаток больше 5гб(предположительно) - обрывается на нехватке памяти, хотя ее много

а что, KeyWordKeeper не справляется?
 

drprime

Client
Регистрация
13.09.2016
Сообщения
138
Благодарностей
47
Баллы
28
  • Спасибо
Реакции: AGAT

FreeSite

Client
Регистрация
01.04.2011
Сообщения
100
Благодарностей
65
Баллы
28
Друзья, апну тему. Подскажите чем можно удалить дубли в файлах 10гб+, где уникальных будет 6-8гб. Пингвин не справляется, хотя всех ресурсов ему хватает. Заметил зависимость пингвина от того, сколько будет весить файл в остатке. Например, файл 10 гб, остаток без дублей 2 - нормально отрабатывает. Если остаток больше 5гб(предположительно) - обрывается на нехватке памяти, хотя ее много
EmEditor попробуй

 

backoff

Client
Регистрация
20.04.2015
Сообщения
5 925
Благодарностей
6 389
Баллы
113

drprime

Client
Регистрация
13.09.2016
Сообщения
138
Благодарностей
47
Баллы
28

AGAT

Активный пользователь
Регистрация
17.11.2018
Сообщения
135
Благодарностей
33
Баллы
28

drprime

Client
Регистрация
13.09.2016
Сообщения
138
Благодарностей
47
Баллы
28
спасибо за ответ

ограничение какое имеет значение?
Точно не помню, если попытаться выбрать большой файл для удаления дублей - выбьет ошибку что строк много, и там будет указано количество строк
 
  • Спасибо
Реакции: AGAT

Radzhab

Client
Регистрация
23.05.2014
Сообщения
1 500
Благодарностей
1 263
Баллы
113
Есть файл на 17 гиг, не могу найти варианты удаления дублей строк. То что в теме - ничего не помогло
 

kagorec

Client
Регистрация
24.08.2013
Сообщения
919
Благодарностей
473
Баллы
63

orka13

Client
Регистрация
07.05.2015
Сообщения
2 164
Благодарностей
2 164
Баллы
113
Есть файл на 17 гиг, не могу найти варианты удаления дублей строк. То что в теме - ничего не помогло
Если там ничего сверхсекретного то сожми архивом по максимум, залей на облако или фтп и бросай в личку. 90% ставлю что смогу почистить дубли методом из описанных.
 

Hartwell

Client
Регистрация
25.09.2014
Сообщения
194
Благодарностей
117
Баллы
43
Есть файл на 17 гиг, не могу найти варианты удаления дублей строк. То что в теме - ничего не помогло
https://unifiedlm.com/DownloadCLI

Если имеем на тачке ~16гб озу + файл подкачки - юзай sort64.exe
Если RAM значительно меньше чем размер файла - sort64lm.exe (low memory)

C#:
sort64.exe -i файл.тхт -u -t 32

-i = путь к файлу
-u = удалять дубли
-t = кол-во thread (равное кол-ву core cpu)

 
Последнее редактирование:

Radzhab

Client
Регистрация
23.05.2014
Сообщения
1 500
Благодарностей
1 263
Баллы
113
Хочешь сделать хорошо - сделай сам. Держите
Прога объединяет файлы и соединяет в один без дублей
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)