Получаем списки нужных url (по паттернам) в большом количестве (CDX CC)

marushin · 17.03.2023

Спасибо, полезно.

ЗЫ. Полазил по сайту, вобщем по этой инструкции, можно на AWS Amazon сделать себе зеркало этой базы в SQL и обычными запросами выбивать нужные данные. Проверил, всё робит, запросы моментально отрабатывают.

inilim · 18.03.2023

два открытия для меня за сегодня, это редактор который открывает гиговые файлы "emEditor" и халявные петабайтные данные.

Nord · 30.05.2023

DevOps сказал(а):
Я же хочу показать обработку на одном паттерне который близок многим пользователям на форуме - это поиск контактных форм либо контактных страниц для сбора и или обогащения своих баз данных.
Смотрим пруф и обращаем внимание на скорость поиска.

Если кто не смотрел видео, поиск в 2 файлах с 20+ миллионами строк с одним паттерном "contact" занял всего 40 секунд. Для поиска по всем 300 файлам времени уйдет от часу до двух. Конечно можно ускорить еще раз в 5, но пока не к спеху.

А чем ты извлекал данные из этих 300 файлов?
Регулярками же так быстро невозможно обработать

Nord · 31.05.2023

DevOps сказал(а):
Здравствуйте. Регулярки тут не нужны. через обычный Contains

Спасибо за ответ.
ЖПТ нафантазировал код на пейтоне с регуляркой - тоже очень быстро ищет, секунд 50-65 на один файл

sewer · 01.08.2023

DevOps сказал(а):
Я взял паузу в данной разработке до разработки проекта на тулките CUDA (CUDA.NET). Так все мои проекты связаны в один продукт, то по готовности выложу обработчик на GPU

Если есть возможность (желание) можно ли выложить проект отработчика.

sewer · 01.08.2023

DevOps сказал(а):
К сожалению на теста с тулкитом я немного подпалил видюху (один порт вообще отказал) и на этом моя разработка закончилась так как sdk перестал понимать карту

Я имел в виду проект без видюхи, простой на проце, если он есть конечно.

sewer · 01.08.2023

DevOps сказал(а):
Посмотреть вложение 110032
Проекты есть, правда все под бенчи, проще перписать. А ZP вообще выдает пустой файл. Глюкнуло что то. Будет время переберу и закину. Сразу озвучьте "хотелки" чтобы не перписывать потом

Все как в Вашем видео в настройках все есть

sewer · 01.08.2023

DevOps сказал(а):
Под Зенку сделать или автономку?

Под зенку всем бы пригодилось.

Поиск

Получаем списки нужных url (по паттернам) в большом количестве (CDX CC)

DevOps

Client

marushin

Client

DevOps

Client

inilim

Client

DevOps

Client

DevOps

Client

Nord

Client

DevOps

Client

Nord

Client

DevOps

Client

sewer

Client

DevOps

Client

sewer

Client

DevOps

Client

sewer

Client

DevOps

Client

sewer

Client

DevOps

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)