Базы данных на пальцах (для новичков)

Zippy · 07.09.2022

Astraport сказал(а):
Хороший совет. Напарсить данных в БД, создать сайт на миллион паг, вложить много тыщ в SEO, а потом узнать, что статьи не лезут в ТОП потому что в них обрезан контент, который нет возможности восстановить.

Мне кажется при описанных масштабах уже многие грабли будут пройдены)

Zippy · 07.09.2022

В общем, метод тыка наверно не плох, в начале, но, думаю, лучше знать базовые типы, varchar, text, int, float.

Zippy · 08.09.2022

Допустим у меня есть база с таблицей emails: mail, password, works, banned и мне нужно взять из этой таблицы почту+пароль, рабочие, не забаненые, только с доменом yandex.ru. Пишу соответствующий запрос к БД в кубике. Получившийся результат, допустим 100 аккаунтов, мне нужно скормить регистратору. Какой подход более грамотный - сделать запрос один раз в начале проекта и сохранить результат в список и брать из списка по одной строчке каждый новый цикл или написать запрос так, чтобы он по очереди выдавал только одну строку в переменную каждый новый цикл и уже регистратор будет брать почту из этой перменной?

WebBot · 08.09.2022

Zippy сказал(а):
Допустим у меня есть база с таблицей emails: mail, password, works, banned и мне нужно взять из этой таблицы почту+пароль, рабочие, не забаненые, только с доменом yandex.ru. Пишу соответствующий запрос к БД в кубике. Получившийся результат, допустим 100 аккаунтов, мне нужно скормить регистратору. Какой подход более грамотный - сделать запрос один раз в начале проекта и сохранить результат в список и брать из списка по одной строчке каждый новый цикл или написать запрос так, чтобы он по очереди выдавал только одну строку в переменную каждый новый цикл и уже регистратор будет брать почту из этой перменной?

самое оптимальное делать регистратор так что бы 1 запуск регал 1 аккаунт и соответственно брал из БД для этого 1 строку

marushin · 08.09.2022

Zippy сказал(а):
Допустим у меня есть база с таблицей emails: mail, password, works, banned и мне нужно взять из этой таблицы почту+пароль, рабочие, не забаненые, только с доменом yandex.ru. Пишу соответствующий запрос к БД в кубике. Получившийся результат, допустим 100 аккаунтов, мне нужно скормить регистратору. Какой подход более грамотный - сделать запрос один раз в начале проекта и сохранить результат в список и брать из списка по одной строчке каждый новый цикл или написать запрос так, чтобы он по очереди выдавал только одну строку в переменную каждый новый цикл и уже регистратор будет брать почту из этой перменной?

Лучше для каждого действия свой запрос, так можно промежуточные данные вносить и если несколько потоков, то не получится, что разные потоки с одним и тем же аком работают. Но если БД учавствует в разных проектах или БД довольно большая, то меньше обращений лучше. Тут уже по ситуации смотреть, просто БД может не успевать обрабатыать запросы. В зенковском кубике, как я понял, есть ограничение на время ожидания ответа от БД.

BAZAg · 08.09.2022

Zippy сказал(а):
Допустим у меня есть база с таблицей emails: mail, password, works, banned и мне нужно взять из этой таблицы почту+пароль, рабочие, не забаненые, только с доменом yandex.ru. Пишу соответствующий запрос к БД в кубике. Получившийся результат, допустим 100 аккаунтов, мне нужно скормить регистратору. Какой подход более грамотный - сделать запрос один раз в начале проекта и сохранить результат в список и брать из списка по одной строчке каждый новый цикл или написать запрос так, чтобы он по очереди выдавал только одну строку в переменную каждый новый цикл и уже регистратор будет брать почту из этой перменной?

Если, мы работаем в 1 поток, внутри шаблона, тогда:

Запрос к базе, к примеру 10 секунд.
Регистрация аккаунта, например 100 секунд.
В случае если мы возьмем 1 запросом 100 строчек - наши накладные затраты по времени = 10 секунд.
Остальное время - полезные действия (например регистрация).
В конце работы - отчитываемся перед базой - ещё 1 запрос.
Вместе накладных расходов 20 секунд времени.
Итого, спустя 100*100+20 = 10 020 секунд мы получим наши аккаунты.
В этом соотношении накладные расходы составили 0,2%.
Спустя это время мы получим 100 аккаунтов.

Рассмотрим аналогичную ситуацию, но, на каждом запросе мы получаем 1 строчку.
Тогда 100*100+20*100 = 12 000 секунд мы получим наши аккаунты.
В этом соотношении - накладные расходы составили 20%.
Спустя это время мы получим 100 аккаунтов.

Если, мы работаем в 100 потоков, тогда:
Может показаться, что вот, если мы будем работать в многопоточном режиме, то ситуация изменится кардинально.
Нужно смоделировать ситуацию примерно так - каждый отдельный поток будет работать какое-то время, и зарегистрирует нам 100 аккаунтов.
Тогда, если мы запускаем 100 потоков одновременно, получим такой расчёт:
В первом случае: 100*100*100 + 20*100 = 1 002 000 секунд.
Во втором случае: 100*100*100 + 20*100*100 = 1 200 000 секунд.
Итого, спустя это время мы получим 10 000 аккаунтов.

Ну, и конечно, возможно я ошибся в расчётах...
P.S. Точно ошибся - результат ещё нужно на 100 поделить - получится, что в 100 потоков просто в 100 раз быстрее работа выполнится, но, пропорции издержек сохранятся.

marushin · 08.09.2022

BAZAg сказал(а):
Ну, и конечно, возможно я ошибся в расчётах...
P.S. Точно ошибся - результат ещё нужно на 100 поделить - получится, что в 100 потоков просто в 100 раз быстрее работа выполнится, но, пропорции издержек сохранятся.

Время потраченное для 100 одновременных запросов к БД не равно время1-го запроса *100
БД параллельно обрабатывает запросы

BAZAg · 08.09.2022

marushin сказал(а):
Время потраченное для 100 одновременных запросов к БД не равно время1-го запроса *100
БД параллельно обрабатывает запросы

В теории - БД работает параллельно ( сообщенька на первой страничке)
На практике, мы не можем вместо 100 подставить значение 1 000 000 000 000 или бесконечность (разве что говорим о какой-то микросервисной архитектуре).
Попробуйте погонять многопоток без локов например с SQLite, или например хотя бы в 100 потоков MySQL, если в таблицах хранится например 1-2 ГБ данных.

Ну, и если все так хорошо с параллельностью - вопрос сразу такой - почему же на форуме люди все же говорят о локах, транзакциях и тп?

Что касается конкретно совета пользователю, которому он понадобился - решается все просто - пишем бота, который перед регистрацией берет данные с базы, а после регистрации - отчитывается.
А когда в процессе будет ощущаться подход к ограничениям базы (например превышено количество подключений к базе и тп) - тогда просто меняем логику на то, чтобы взять с базы 1000 строк, и работать с ними, а после отработки - вернуть результат в базу сразу пачкой.
Если же в процессе нужно отслеживать ещё статусы на каком шаге сейчас регистрация того или иного аккаунта - тогда от единичных запросов никуда деться не получится - с ними нужно будет смириться :-)

marushin · 08.09.2022

BAZAg сказал(а):
Попробуйте погонять многопоток без локов например с SQLite, или например хотя бы в 100 потоков MySQL, если в таблицах хранится например 1-2 ГБ данных.

Ну, и если все так хорошо с параллельностью - вопрос сразу такой - почему же на форуме люди все же говорят о локах, транзакциях и тп?

Именно по опыту работы с MySQL и делаю выводы.
1 сервер MySQL в локалке, несколько БД с записями 10-50КК, в 25 потоков с одного компа, 5-10 потоков с другого. Не сказать что летает в пике, но работает стабильно.

Запросы с локами по такой схеме делаю:

BEGIN;
SET @v1 = (
SELECT id_table FROM my_table WHERE task_done = 0 LIMIT 1 FOR UPDATE);
DELETE FROM my_table WHERE id_table = @v1;
Select @v1;
COMMIT;

предложенно в этой теме Извлечь строку из таблицы БД MySQL
т.е. локается не таблица, а запись

BAZAg · 08.09.2022

marushin сказал(а):
Именно по опыту работы с MySQL и делаю выводы.
1 сервер MySQL в локалке, несколько БД с записями 10-50КК, в 25 потоков с одного компа, 5-10 потоков с другого. Не сказать что летает в пике, но работает стабильно.

Запросы с локами по такой схеме делаю:

BEGIN;
SET @v1 = (
SELECT id_table FROM my_table WHERE task_done = 0 LIMIT 1 FOR UPDATE);
DELETE FROM my_table WHERE id_table = @v1;
Select @v1;
COMMIT;

предложенно в этой теме Извлечь строку из таблицы БД MySQL

В момент между BEGIN; и COMMIT; база пытается зафиксировать состояние.
В этот конкретный момент все остальные обращения стоят в очереди, курят, девок по кабакам водят и тп.
Если скорость добавления запросов в очередь больше, чем скорость обработки очереди - к чему это приводит?

Я не говорю, что так делать не нужно - сам также делаю.
Но, если к примеру у меня в базе 1кк почт или доменов, и мне нужно их проверить на существование, то глупо делать это по 1 почте.
Куда выгоднее взять 1000, в параллельных потоках отправить нужные запросы, и уже потом просто сохранить результат 1 запросом в базу.

Другими словами - если мы берем и возвращаем данные например 1 раз в минуту, в 100 потоков - все ок.
Если нам придется брать/добавлять/изменять больше в минуту - тогда нужно задуматься о том, чтобы группировать.

marushin · 08.09.2022

BAZAg сказал(а):
В момент между BEGIN; и COMMIT; база пытается зафиксировать состояние.
В этот конкретный момент все остальные обращения стоят в очереди, курят, девок по кабакам водят и тп.
Если скорость добавления запросов в очередь больше, чем скорость обработки очереди - к чему это приводит?

Ничего не стоит, локается запись, а не таблица. И если таблица правильно составлена, то параллельно запросы обрабатываются.

BAZAg · 08.09.2022

marushin сказал(а):
Ничего не стоит, локается запись, а не таблица. И если таблица правильно составлена, то параллельно запросы обрабатываются.

Таблица нам дана: emails: mail, password, works, banned
Она правильно составлена, чтобы параллельно обрабатывать запросы?
Или речь идет именно о поле key по которому должен быть построен индекс?

marushin · 08.09.2022

BAZAg сказал(а):
Таблица нам дана: emails: mail, password, works, banned
Она правильно составлена, чтобы параллельно обрабатывать запросы?

У полей есть индексы, от правильности проставки или не проставки индексов будет зависеть скорость на больших таблицах.

olek2765 · 15.09.2022

Подскажите логику, есть база логин: пароль: статус (в работе и свободен)
Я беру по статусу строку в работу со статусом свободен, после ставлю статус в работе, в один поток работает норм но когда несколько потоков получаеться что несколько потоков берут одну и ту жу строку. Как исправить?

FB мастер · 27.09.2022

olek2765 сказал(а):
Подскажите логику, есть база логин: пароль: статус (в работе и свободен)
Я беру по статусу строку в работу со статусом свободен, после ставлю статус в работе, в один поток работает норм но когда несколько потоков получаеться что несколько потоков берут одну и ту жу строку. Как исправить?

я кубиком беру, по условию что акк не в работе (1 условие), акк активный (2 условие) - из всей выборки 1 строку кидаю в переменные

Вторым кубиком ставлю статус в работе > для этого акка

Не сильно много потоков, кубик БД может работать в многопотоке - в тех.поддержке уточнял.

GreenWay · 26.10.2022

FB мастер сказал(а):
я кубиком беру, по условию что акк не в работе (1 условие), акк активный (2 условие) - из всей выборки 1 строку кидаю в переменные

Вторым кубиком ставлю статус в работе > для этого акка

Не сильно много потоков, кубик БД может работать в многопотоке - в тех.поддержке уточнял.

Какую БД используешь?
Например БД SQLite (на 300 000 строк) при 5 параллельных потоках простой запрос-проверка пола по имени (пример запроса)

C#:

SELECT GENDER FROM BASE WHERE NAME LIKE ('{-Variable.NAME-} %') LIMIT 1

Иногда отдает пустоту, хотя строка "NAME-GENDER" присутствует.
И вот еще вопрос-проблема.. Я беру имя, перевожу в нижний регистр и ищу по базе - забираю гендер. Если не находит - то возвращает пустоту. Но из-за многопотока иногда отдает пустоту даже при наличии "NAME-GENDER". Можно ли как-то иначе проверять? Может чтоб статус отдавало а не просто пустоту..

FB мастер · 27.10.2022

GreenWay сказал(а):
Какую БД используешь?

Предполагаю что БД SQLite, по количеству строк она очень скромная) Находится на хостинге где сайты храню. Подойдет ли для твоих задач такой вариант - не подскажу

ильяsffse · 25.12.2022

SQLite После удаления строк НЕ меняет размер файла :bh:

Что делать ???
VACUUM ? rowid он нарушить может-нарушает???
Кто шарит подскажите пж :ce:

Phoenix78 · 25.12.2022

ильяsffse сказал(а):
SQLite После удаления строк НЕ меняет размер файла
Что делать ???
VACUUM ? rowid он нарушить может-нарушает???
Кто шарит подскажите пж

VACUUM удаляет старые данные

ильяsffse · 25.12.2022

Phoenix78 сказал(а):
VACUUM удаляет старые данные

Так а как при удалении строки... освобождать место :bh:

Весит с данными 10мб и после удаления сток 10мб. даже если пусто.. шо за дела :ce:

Phoenix78 · 25.12.2022

ильяsffse сказал(а):
Так а как при удалении строки... освобождать место
Весит с данными 10мб и после удаления сток 10мб. даже если пусто.. шо за дела

удаление строк, это чисто метка в базе. сами данные остаются в базе. поэтому она только растет в размере. зато операция быстро проходит.
VACUUM удаляет эти старые данные.
у меня база используется эпизодически и перед началом работы с ней я ее чищу вот так
PRAGMA integrity_check;
VACUUM;

Nekro · 03.12.2023

Подскажите, такое подключение ещё актуально? Через HeidiSQL подключаюсь нормально, а в ZP не получается. Насыпает ошибки. У меня ещё порт нестандартный. Как его прописать? БД MySQL на Windows Server.

SQL:

Data source=то_что_мы_вводили_в_имя_хоста;UserId=логин_jino;Password=пароль_jino;database=имяБД;Charset=utf8;

FB мастер · 03.12.2023

В ковычках проблема может быть
Сам такое же действие в HeidiSQL сделай, скопируй запрос в зенку в поле "Текст запроса"
Насчет порта тут не скажу.

Все запросы с HeidiSQL вставляю в зенку, и дальше уже вставляю переменные - все работает

Nekro · 03.12.2023

FB мастер сказал(а):
В ковычках проблема может быть
Сам такое же действие в HeidiSQL сделай, скопируй запрос в зенку в поле "Текст запроса"
Насчет порта тут не скажу.

Все запросы с HeidiSQL вставляю в зенку, и дальше уже вставляю переменные - все работает
Посмотреть вложение 114999

В расширенных настройках выставил Port, сама строка подключения значительно изменилась. После этого - заработало.

SanchoPancho · 08.02.2024

/* Пример вставки сразу нескольких значений */
INSERT INTO zennolab (name, age) VALUES('pety','24'), ('koly','42');

Подскажите пожалуйста как передать массив данных например из таблицы или списка?

Alex733 · 08.02.2024

SanchoPancho сказал(а):
/* Пример вставки сразу нескольких значений */
INSERT INTO zennolab (name, age) VALUES('pety','24'), ('koly','42');

Подскажите пожалуйста как передать массив данных например из таблицы?

Надо преобразовать массив данных в строку. Например, можно так:

C#:

var zt = project.Tables["tmp"];
string tosql = "";

for(int i = 0; i < zt.RowCount; i++){
    string name = zt.GetCell("A",i);
    string age = zt.GetCell("B",i);
    tosql += $"('{name}', '{age}'),";
}
return "INSERT INTO zennolab (name, age) VALUES " + tosql.Trim(',');

SanchoPancho · 08.02.2024

Alex733 сказал(а):
Надо преобразовать массив данных в строку. Например, можно так:

C#:

var zt = project.Tables["tmp"]; string tosql = ""; for(int i = 0; i < zt.RowCount; i++){ string name = zt.GetCell("A",i); string age = zt.GetCell("B",i); tosql += $"('{name}', '{age}'),"; } return "INSERT INTO zennolab (name, age) VALUES " + tosql.Trim(',');

Спасибо, то что нужно!

Базы данных на пальцах (для новичков)

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)