Неявные дубли строк

Mahno

Client
Регистрация
16.05.2015
Сообщения
440
Благодарностей
94
Баллы
28
Добрый день все, на форуме куча сниппетов и решений, искал два часа, пока не нашел решения данной задачи.
А задача следующая:
Есть строки вида:
Кролик;зайчик;зверь
Кролик;животное;зверь

Как найти данные неявные дубли и сохранить в отдельный список ?
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 607
Благодарностей
4 597
Баллы
113
критерий неявного дубля до конца непонятен
 

Mahno

Client
Регистрация
16.05.2015
Сообщения
440
Благодарностей
94
Баллы
28
критерий неявного дубля до конца непонятен
Одниковые значения 1 - Кролик, 3 - зверь, меняющееся это второе значение. Вот и выходит что строка целиком это неявный дубль, т.е. совпадение только по одному значению.

Чтобы еще проще объяснить допустим у вас список из данных аккаунтов фейсбука, один аккаунт - одна строка.

Структура: Логин:пароль:почта:пароль почты

Допустим:
LevdevaSvetlana:WOIdfiod&77:[email protected]:doifpod#*
LevdevaSvetlana:difdpfi8787:[email protected]:doifpod#*

Т.е. пароли разные, нам нужно выцепить обе эти строки
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 607
Благодарностей
4 597
Баллы
113
Одниковые значения 1 - Кролик, 3 - зверь, меняющееся это второе значение. Вот и выходит что строка целиком это неявный дубль, т.е. совпадение только по одному значению.

Чтобы еще проще объяснить допустим у вас список из данных аккаунтов фейсбука, один аккаунт - одна строка.

Структура: Логин:пароль:почта:пароль почты

Допустим:
LevdevaSvetlana:WOIdfiod&77:[email protected]:doifpod#*
LevdevaSvetlana:difdpfi8787:[email protected]:doifpod#*

Т.е. пароли разные, нам нужно выцепить обе эти строки
ты хотел сказать, совпадение по двум значениям?

Если так - обычный перебор. Взял первую, разбил. Пошёл циклом брать каждую строку начиная со второй, разбивать и сравнивать. Есть твой неявный дубль - скидываешь в отдельный список. В конце цикла, если был хотя бы 1 дубль - скидываешь и 1ю взятую строку. Потом берёшь след строу и новый цикл сравнения. Тут главное индексы регулировать и не терять
 

Mahno

Client
Регистрация
16.05.2015
Сообщения
440
Благодарностей
94
Баллы
28
ты хотел сказать, совпадение по двум значениям?

Если так - обычный перебор. Взял первую, разбил. Пошёл циклом брать каждую строку начиная со второй, разбивать и сравнивать. Есть твой неявный дубль - скидываешь в отдельный список. В конце цикла, если был хотя бы 1 дубль - скидываешь и 1ю взятую строку. Потом берёшь след строу и новый цикл сравнения. Тут главное индексы регулировать и не терять
аа, примерно понял, попробуем реализовать) Спасибо за идею!

Только получается если брать без удаления, он будет искать бесконечно. А если с удалением то надо восстанавливать файл после взятия всех строк, но без первой строки
 
Последнее редактирование:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)