Похожая задача есть, нужно удалить из списка дубли строк в которых часть текста совпадает.
Эта часть всегда находится между ";;;" и "|"
Пример списка:
/all/?tag=perepis-naseleniya;;;/turizm/|
/all/?tag=vk-dinamo;;;/turizm/|
/all/?tag=proverki&PAGEN_1=6;;;/turizm/|...