как сопоставить мелкую разницу в написании текста?

fortaran

Client
Регистрация
22.04.2020
Сообщения
32
Благодарностей
1
Баллы
8
Всем привет, решил попарсить данные спорт событий и столкнулся с проблемой написания (названия играющих команд)
суть: беру 2 разных источника, оба спарсил и потом сверяю информацию, но чтобы сопоставить игры я могу использовать только точные совпадения команд.
Примеры не решенной проблемы
источник 1:
Legion Dinamo - Anzhi Makhachkala
источник 2:
Legion Dynamo - FK Anzi Makhackala

источник1:
Platense (w) - Huracan (w)
источник2:
Platense W - Huracan W
зенка считает что Legion Dinamo - Anzhi Makhachkala != Legion Dynamo - FK Anzi Makhackala и Platense (w) - Huracan (w) != Platense W - Huracan W
а я знаю что Legion Dinamo - Anzhi Makhachkala == Legion Dynamo - FK Anzi Makhackala и Platense (w) - Huracan (w) == Platense W - Huracan W
и таких примеров масса, по факту совпадает около 50%, а это половина не обработанной информации =(

искать в ручную все варианты не совпадений и писать для них регулярки чтобы потом обработать текст и привести к максимально схожим данным - это не выход, так как регулярками можно навносить ненужных изменений.
существуют ли какие то базы похожих правописаний? можно ли сделать если 95% текста совпадает то считать его одинаковым?
может существуют какие то другие варианты? даже не могу сформировать поисковый запрос в какую сторону гуглить))))
подскажите в какую сторону копать?
 

Phoenix78

Client
Read only
Регистрация
06.11.2018
Сообщения
11 790
Благодарностей
5 694
Баллы
113

fortaran

Client
Регистрация
22.04.2020
Сообщения
32
Благодарностей
1
Баллы
8

Phoenix78

Client
Read only
Регистрация
06.11.2018
Сообщения
11 790
Благодарностей
5 694
Баллы
113
спасибо, можете подсказать как вы это сделали?
загуглил неявное сравнение, неточное сравнение строк и по найденному написал код для сравнения.
если сложно будет самостоятельно написать код, обращайтесь, продам свой код.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)