Помогите с логикой быстрого поиска в списке

RoyalBank · 30.04.2020

Через стримридер пробовали?

C#:

string path = @"C:\words.txt";
string word = "Zwinglianist";
bool result = false;

using (FileStream fs = File.Open(path, FileMode.Open, FileAccess.Read, FileShare.ReadWrite))
using (BufferedStream bs = new BufferedStream(fs))
using (StreamReader sr = new StreamReader(bs))
{
    string line;
    while ((line = sr.ReadLine()) != null)
    {
        if (line.Contains(word)) {
            result = true;
            break;
        }
    }
}

RoyalBank · 30.04.2020

planeta сказал(а):
запросов просто будет очень много...

Проверяйте все внутри одного стримридера... В любом случае упираться может в аппаратную часть, начиная с диска, лучший результат может показать NVMe, заканчивая оперативой и процессором.

doc · 30.04.2020

planeta сказал(а):
даже дольше стало(

ладно. Позже как освобожусь сам сгенерирую список и потестирую)

Твоя задача решаема 100% пи условии, что список никак не редактируется, а поиск направлен только на то, чтобы узнать, есть строка или нет

Koqpe · 30.04.2020

planeta сказал(а):
в строну БД нет смысла копать, будет дольше?

Дольше не будет, недавно зашел разговор:

biryukovm сказал(а):
Вообще по своей практики я более стабильной БД пока не замечал с MS Sql у меня проблем не было, а базы били под гиг 500 и выполнялись в секунды запросы, это на много быстрее чем работать с MySQl

doc · 30.04.2020

C#:

string textContains = project.Variables["id"].Value;
var list = project.Lists["spisok"];

int min = 0;
int max = list.Count - 1;
while (min <= max)
{
    int index = (min + max) / 2;
    int x =  textContains.CompareTo(list[index]);
    
    if (x == 0) return true;//index;
    else if (x > 0) min = index + 1;
    else max = index - 1;
}

return false;

будет работать быстро, если список отсортирован

Phoenix78 · 30.04.2020

В общем быстрый поиск по паутине выдал такой совет по данной проблеме.
Люди советуют сделать второй файл и записать туда для каждой строки md5 хэш. при каждом изменении файла надо переиндексировать второй файл, ну или те данные что изменились.
поиск по хэшам намного быстрее. правда хэши могут совпадать, но это решается простой до проверкой исходной строки. Решение не простое, но пишут что поиск по такому методу позволяет обрабатывать 100кк строк за миллисекунды.

doc · 30.04.2020

planeta сказал(а):
код постоянно выдает "False', хотя и исполняется.

создай мелкий список на котором я это смогу увидеть и скинь сюда или в личку

Phoenix78 · 30.04.2020

planeta сказал(а):
Строки не меняются, файл всегда один, не совсем понимаю как это поможет в решении вопроса.. даже если он статичный, не понятно как сгенерить мд5 хэши и как потом по ним быстро искать зенкой и чем они от обычного текста отличаются...
Объясните пожалуйста.

ну суть в том что хэши занимают меньше места. и размер файла уменьшается, ну и там рекомендуют запихать этот файл в базу, проиндексировать его дополнительно и дополнительно настроить таблицу на постоянное нахождение в памяти. ну решению имеет быть место, но оно реально сложное.

Phoenix78 · 30.04.2020

planeta сказал(а):
Сейчас посчитал, в строках моего файла в среднем 34-35 символов, в md5 - 32 символа, так что размер файла уменьшится совсем незначительно.
можно ссылку откуда инфа? тоже думаю про переход на БД, возможно это решит вопрос, но по быстрым MSQL я так и не нашел инструкций по подключению к зенке...

здесь читал https://www.cyberforum.ru/csharp-net/thread1937510.html

biryukovm · 02.05.2020

planeta сказал(а):
не могу найду никаких мануалов по поднятию и подключению mssql к зенке..

И не найдешь я вот галимым C# сделал и работаю

Помогите с логикой быстрого поиска в списке

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)