Как работать с большими (100гб) txt файлами?

one · 24.12.2020

Я бы предварительно подготовил исходный файл, разбил на более менее "приятные" куски.

doc · 24.12.2020

я бы тоже просто нарезал бы, и оттуда уже рандомил и файл и строку

Yuriy Zymlex · 24.12.2020

Либо нарезать, м.б. юзать FileStream. Суть в том, что бы по кусочку в буфер брать часть файла, делать что требуется и брать следующий кусок.

RoyalBank · 24.12.2020

BAZAg сказал(а):
File.ReadLines

Я бы смотрел в сторону первичных инструментов.

C#:

string line = string.Empty;
int64 i = 0;

using (var stream = File.Open(myFilePath, System.IO.FileMode.Open, FileAccess.Read))
using (var reader = new StreamReader(stream))
{
    while (!reader.EndOfStream) i++;
    
    // Дальше генерируешь случайные совпадения и получаешь их через
    line = reader.ReadLine().ElementAt(7);
    
    // Если необходимо можешь добавить проверку на пустую строку
    if (line.Length != 0 && !line.Equals("\n", StringComparison.Ordinal))
    {
        
    }
}

backoff · 24.12.2020

Была такая задача, работа именно с ТХТ
советую следующее
1. нарезать файлы не более 100мб - вышел опытным путем, при таком +- размере, сервак работает идеально быстро
2. когда будет много файлов, а их будет много, обязательно разделять по папка, типа по 10-20 файлов в папке, это так же работает на скорость работы, когда они все будут в одной папке, будет тупить +-

ну а так наверно лучше sql юзать

max_linder · 24.12.2020

писал для себя шаблон по разбивке на более мелкие фалы

Yuriy Zymlex · 25.12.2020

max_linder сказал(а):
писал для себя шаблон по разбивке на более мелкие фалы

И?

Alexmd · 25.12.2020

Буквально вчера столкнулся с похожей задачей. Печалька случалась пару раз, вплоть до перезагрузки системы)))) Собрал текстовый файл на 90ГБ и решил в нем поковыряться зенкой(придумал предварительно алгоритмы по очистке строк от мусора, дублей и сортировке). Думаю, машина то у меня мощная. В общем, бился часа 3 с этим чудовищем. Плюнул. Оставил до лучших времен.
Попробовал применить подход Юрия сегодня - просто, чтоб пощупать обращение к файлу такого размера. Строки доставались с периодичностью секунд 10 каждая. Хрень какая-то, но хоть не зависает.
Ошибки с номером строки не возникнет в процессе работы, так как зенка поругается на это еще на уровне компиляции. Проверить это можно, запустив такой код return new Random().Next(2*int.MaxValue);, да и 2KKK+ строк должны быть слишком малоинформативными для такого веса.

В общем, я сам себе придумал проблему, объединив все в один файл нахрапом. Если есть возможность, работайте с меньшими файлами.

Пока писал этот ответ, пришла мысль, как оптимизировать забор строк - несколько сумбурно опишу, но все же, думаю поймете. Метод кажется мне крайне логичным:
предположим, что Вы уже разбили большой файл или не соединяли маленькие в этого "текстового переростка", так вот, надо организовать из них цепочку. Берем все маленькие файлы, подгоняем их под единый приемлемый размер и забираем их пути в список. Далее остается только составить корректную математическую формулу подсчета. Наглядно:
1000 файлов по 2.000.000 строк вместо "бугая" на 2 миллиарда.
получаем рандомное число, скажем 1.400.322.167
высчитываем быстренько интами 1400322167-1400322167/2000000 и получаем, что нам надо обратиться к файлу с индексом 700 в списке файлов и взять из него строку 322167, что явно(даже не требует тестирования) будет быстрее моих утренних 10 секунд и впишется в миллисекунды.
с индексами, наверняка напутал +-1, но, думаю, суть донес.
Как разбить такой большой файл пока даже не думаю - все. я спать.
ps ну, а так, лучше бигдата заюзать

uuw · 25.12.2020

EmEditor
бесплатный период есть
Если задача постоянная - проще купить
Ну это если будет нормально работать
Кеи что в сети - нерабочие

max_linder · 25.12.2020

Zymlex сказал(а):
И?

Столкнулся с тем что Content Downloader при загрузке больше 20т. строк у меня подвисает. Собрал шаблон на кубиках за 10 минут. Делит 1 файл на несколько файлов по 15т. строк и сохраняет в один каталог с именами: имя файла+1 т.д. В чем вопрос то?

backoff · 25.12.2020

Категорически советую редактор - EmEditor
он очень легко обращается в огромными файлами, на торентах есть крякнутые версии.
Так же в нем есть функция разбива на файлы

Да notepad++ не так крут как EmEditor
я щас только им и пользуюсь, умеет реально все

xatchikzzz · 07.12.2023

А так что б без стороннего по можно как то реализовать ??

backoff · 07.12.2023

Можно распечатать на принтере, а потом руками набрать в текстовик, ну это при условии что принтер откроет

xatchikzzz · 07.12.2023

backoff сказал(а):
Можно распечатать на принтере, а потом руками набрать в текстовик, ну это при условии что принтер откроет

умно но неуместно .. спасибо ...

Sherminator · 07.12.2023

xatchikzzz сказал(а):
умно но неуместно .. спасибо ...

если вы что то понимаете в кодинге, то грузите эти строки в базу данных через yeld и работайте уже с базой данных

xatchikzzz · 07.12.2023

Sherminator сказал(а):
если вы что то понимаете в кодинге, то грузите эти строки в базу данных через yeld и работайте уже с базой данных

в этом и проблема что не умею с бд работать ...

backoff · 07.12.2023

xatchikzzz сказал(а):
умно но неуместно .. спасибо ...

а почему не уместно? Вы разве не пользуетесь сторонними программами вообще?
Можно заменить или добавить текстовый редактор, как вспомогательный, например он у меня так и сделан, не основной.
Он очень простой и очень удобный, и легко работает с огромными файлами, для этого его и создали, глупо не воспользоваться, потратив 10 минут до результата.

xatchikzzz · 07.12.2023

backoff сказал(а):
а почему не уместно? Вы разве не пользуетесь сторонними программами вообще?
Можно заменить или добавить текстовый редактор, как вспомогательный, например он у меня так и сделан, не основной.
Он очень простой и очень удобный, и легко работает с огромными файлами, для этого его и создали, глупо не воспользоваться, потратив 10 минут до результата.

суть зенопостера в автоматизации .... а если ты добавляешь стороний софт то это полуавтомат уже ... за которым тебе надо следить ....

backoff · 07.12.2023

так речь про то чтоб подготовить огромный файл или каждый день обрабатывать разные большие файлы?

backoff · 08.12.2023

С большими файлами, я работал так, брал файл, разбивал его на части по N строк, максимально быстро файлы обрабатывались при размере 50-60Мб (это примерно 2-3кк строк)
все это файлы записывал в отдельную папку и привязывал к списку, если список заканчивался, перепривязывался следующий и так далее.
Поэтому и советую редактор, у него есть функция разбивки на файлы определенного размера(количества строк)

Как работать с большими (100гб) txt файлами?

Client

Client

Client

Moderator

Client

Client

Client

Moderator

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)