Почистить файл с миллионами строк на совпадения в блек листе, который тоже с миллионами строк.

LightWood

Moderator
Регистрация
04.11.2010
Сообщения
2 382
Благодарностей
915
Баллы
113
Есть 2 файла.
Каждый из них в миллионы строк.
Как-то юзал давно KeyWordKeeper, было как-то не быстро и лимиты там были.
Чищу через шаб сейчас, но не построчно, а предварительно объединяю по 100строк из блек листа в регулярку, и ей уже чищу. Потом следующие 100 и т.д.
Как-то не быстро тоже. Многие часы на это уходят и плюс там вагон потоков не поставить.

Думаю как-то всё по уму шабом разбить на мелкие файлы, и их уже паралельно чистить во множество потоков, думаю побыстрее будет, но решение тоже так себе по красоте. Тачка под задачу мощная.

Может есть какой-то софт специально под это заточенный? Что бы велосипед не придумывать.
Или решение которое шустро прощелкает эту задачу?
 
Последнее редактирование:

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 522
Благодарностей
8 707
Баллы
113
Есть 2 файла.
Каждый из них в миллионы строк.
Как-то юзал давно KeyWordKeeper, было как-то не быстро и лимиты там были.
Чищу через шаб сейчас, но не построчно, а предварительно объединяю по 100строк из блек листа в регулярку, и ей уже чищу. Потом следующие 100 и т.д.
Как-то не быстро тоже. Многие часы на это уходят и плюс там вагон потоков не поставить.

Думаю как-то всё по уму шабом разбить на мелкие файлы, и их уже паралельно чистить во множество потоков, думаю побыстрее будет, но решение тоже так себе по красоте. Тачка под задачу мощная.

Может есть какой-то софт специально под это заточенный? Что бы велосипед не придумывать.
Или решение которое шустро прощелкает эту задачу?
тоже была такая задача, именно с лямами строк, помогло вот это:
http://zennolab.com/discussion/threads/chernyj-spisok-korrektnaja-realizacija.13705/#post-81882
оч. быстро обрабатывает..
спасибо Lexicon'у..
 
  • Спасибо
Реакции: LightWood

LightWood

Moderator
Регистрация
04.11.2010
Сообщения
2 382
Благодарностей
915
Баллы
113

LightWood

Moderator
Регистрация
04.11.2010
Сообщения
2 382
Благодарностей
915
Баллы
113
Что-то я совсем не ожидал такого!

Исходный файл 2.1млн строк
Блэклист 2.5млн строк
Результат 0.8млн строк

Время выполнения шаблона 2 секунды!!!

Чудеса чудесные просто.
 
  • Спасибо
Реакции: Sergodjan

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 522
Благодарностей
8 707
Баллы
113
Что-то я совсем не ожидал такого!

Исходный файл 2.1млн строк
Блэклист 2.5млн строк
Результат 0.8млн строк

Время выполнения шаблона 2 секунды!!!

Чудеса чудесные просто.
да, сам тоже прифигел от этого..
думал мне мерещится, ан нет.. :-)
 

LightWood

Moderator
Регистрация
04.11.2010
Сообщения
2 382
Благодарностей
915
Баллы
113
Знания - сила!
Я думал что даже с гемором, через како-нибудь хитро-вымученный запрос к базе данных, такого не будет.
А тут 7 строчек кода, и работа с текстовикам.
Я многие часы ждал, прежде чем перезапустить процессы, пока проверка на наличие в блеклисте пройдет.
Это очень яркий пример, как народ занимается фигней, через хреновые решения.
Кто-то также деньги зарабатывает.
Главное спросить-то можно было давным давно. Только посту с кодом уже 3 года.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)