3 место Конвейер ⃰ по парсингу баз ключевиков (заголовков статей) от Грибника

ibred · 25.02.2018

Передозировка полезностями от @Lord_Alfred :-)

Lord_Alfred сказал(а):
Под MySQL всё бы работало быстрее, но возможности использования было бы меньше.

Почему?

Vavildi · 25.02.2018

млять , ты вообще когда нибудь спишь или отдыхаешь?

garat · 25.02.2018

Lord_Alfred - спс что подумал об "убить тему" и сделал порог вхождения нормальным - очень достойный жест и забота о коллегах по цеху

garat · 25.02.2018

хотя автор предупредил в топике более чем понятно - хочу напомнить нубам - про припятствование работе сайта - а парсинг это по сути дос атака - будьте осторожно с потоками и делайте все с умом - а то на УК РФ можно нарватся

Сибиряк · 25.02.2018

Lord_Alfred сказал(а):
и результаты его работы меня самого поразили.

И каковы результаты?

Вообще сфера применения может быть и в белом направлении.. для "прощупывания ниши" и расширения охвата семантики.

Сибиряк · 25.02.2018

@Lord_Alfred
how to make pancakes
одна инф выдача)

Сибиряк · 25.02.2018

how to make pancakes recipe
american pancake recipe
how to make pancakes recipe
fluffy pancakes recipe
pancakes recipe in french
pancakes recipe vegan

Сибиряк · 26.02.2018

А спарсенный результат?

Сибиряк · 26.02.2018

А спарсенный результат?

Lord_Alfred сказал(а):
Всё добавил, просто таблица уехала и пришлось исправлять

Во вижу

Класс ща заценим

Danny · 26.02.2018

Lord_Alfred, классная темка! Спасибо большое за статью!
Особенно понравилось, что все расписано логически по полочкам - для вникания в суть с таким техническим арсеналом очень полезно!

Сибиряк · 26.02.2018

Результат интересный. Думаю для создателей инф.сайтов самое то. Там вечная проблема как расширить семантику и притом не вылезть из темы.
Для доров хз. Если только для разбавки...
@Lord_Alfred, пили сервис по анализу ниш)))

progrlab · 01.03.2018

Интересная идея. Понравилась.Хочу ее реализовать по своему.
python+(crowler-Srapy)+(BeautifulSoup)+MySQL+(десяток дешевых VDS за 3$ в месяц у буржуев с упрощенной регистрацией)

progrlab · 01.03.2018

Lord_Alfred сказал(а):
Я посоветую посмотреть в сторону requests + SQLAlchemy и обязательно async/await в трешке (хотя в этом может быть мало смысла, если впски дешевые с 1 ядром) или лучше всё прокидывать в очередь вроде celery (на 2.7 робит).
В прицнипе, вопрос архитектуры тут условно не сложный, но в середине пути можно будет встретить веселые косяки, которые могут попортить всю малину)))

PS: глянул scrapy - он крайне изменился с моего последнего раза, когда я смотрел на него)

requests конечно тоже жизнь облегчает...
Я scrapy пока мало использовал. И в какую сторону он изменился ? Ну к 3-й ке его теперь можно прикрутить. А что еще ?
Ну я думаю, что асинхронно (async/await) даже на этих VPS можно будет работать . Если не увлекаться. Поток, допустим один, операции предположим неблокирующие => 1 ядра будет хватать.
Эхх.. а потом сделать API, чтобы на той-же Зенке можно было-бы использовать. А доступ в виде кубика оформить. :-)

progrlab · 01.03.2018

Lord_Alfred сказал(а):
Тоже думал в сторону сервиса Но потом понял, что смысла в этом особо нет, т.к. данных будет куча, брать деньги за это можно только небольшие, поэтому в теории может даже сервер не окупиться ) Но, конечно, рискнуть всегда можно - опыт то не оценивается в деньгах

Эту кучу данных использовать для самообучающейся нейросети. Пускай после обучения она составляет тайтлы и сниппеты , которые ПС-ам нравятся. :-)

progrlab · 02.03.2018

Lord_Alfred сказал(а):
Есть опыт в tf или keras?)
Я пробовал это, даже рассказывал тут на форуме где-то)

Практического опыта в TensorFlow и надстройке keros у меня нет.
Разобраться с ними ,я думаю, несложно. При наличии соответствующего математического, статистического бэкграунда, знания предметной области и наличии опыта в программировании.

Lord_Alfred сказал(а):
Может предостерегу от потери времени в попытках сделать без должных знаний что-то такое, что в итоге потратит кучу времени и не даст никакого толку))

ИТОГИ-2017 .
Прочел с большим интересом всю ветку, а не только про образцы генерёнки бредо-текста.
Нет, нет. Я не собираюсь тратить время и обучать нейросеть для написания связного человеческого текста. Это задача для серьезных специалистов и коллективов.

Мои слова про :

progrlab сказал(а):
Пускай после обучения она составляет тайтлы и сниппеты , которые ПС-ам нравятся.

Были чистейшей воды волюнтаризЪмом, дилетантизЪмом, а где-то даже кумовством и распиздяйщиной! :-)

. Каюсь.

. Начитался статей в Телеге по типу : "Нейронная сеть на питоне за 5-ть минут". "Машинное обучение для дебилов". "Заставь свою бабушку с помощью кросс-энтропии оценивать матрицы социальных счетов", ну и т.д.

А если серьезно, то уже с полгода плотно засел за вспоминание мат.анализа, дискретки и статистики. Изучаю язык R, deep lerning, нейросети.
Пока из чистого любопытства. Но параллельно присматриваю практические задачи.
Есть уже парочка таких задач. Провожу тесты.

Tianes · 06.03.2018

Вчера поставил на ночь и утром результат меня приятно удивил. Спасибо за проделанную работу!

Хотел уточнить. При обработке 10к линков, получилось 1.3к H1. Это отсутствующие теги или может дело в прокси, т.к. юзались по шаблону стоковые спаршенные зенкой?

Viking01 · 01.05.2018

огонь шаблон, спасибо))

Параметр	База на 481 тысячу ссылок	База на 146 тысяч ссылок
Точное количество ссылок в базе:	481 904	146 000
Количество строк для фильтрации:	37	37
Уникальных доменов:	170 381	72 172
Всего заголовков в базе (с повторами!):	7 240 266	1 722 535
Получено заголовков в результате:	342 260	95 388
Уникальных заголовков в результате:	316 604	85 534
Количество выполнений шаблона в ZP:	1 203 137	392 179
Размер SQLite базы:	723 МБ	187 МБ
Примерное время работы:	5 дней	20 часов

Точное количество ссылок в базе:	33 769
Количество строк для фильтрации:	0
Уникальных доменов:	10 698
Всего заголовков в базе (с повторами!):	428 450
Получено заголовков в результате:	111 116
Уникальных заголовков в результате:	97 771
Количество выполнений шаблона в ZP:	80 906
Размер SQLite базы:	45 МБ
Примерное время работы:	8 часов

Параметр	Ссылка	Количество строк/размер
Файл с запросами для парсинга урлов с гугла:	https://yadi.sk/i/kbwTTnq73Sma8B	133
Список урлов, спаршенных с гугла:	https://yadi.sk/d/-mIJvsdX3SmaEX	33 769
Итоговая sqlite база (можно открыть через SQLiteStudio):	https://yadi.sk/d/78S54z0m3SmaHr	45 МБ
Объединенные итоговые заголовки (с повторами):	https://yadi.sk/i/SSvtoSe_3SmaMr	111 160
Объединенные итоговые заголовки (без повторов):	https://yadi.sk/i/jFmMobRg3SmaQw	97 771
Объединенные итоговые заголовки (без повторов, отфильтровано по "pancake"):	https://yadi.sk/i/i79qUOIj3SmaRe	26 710
Заголовки по тегу title (с повторами):	https://yadi.sk/i/lJyGRNmG3Smasp	18 804
Заголовки по мета-тегу og:title (с повторами):	https://yadi.sk/i/c3-ICK0B3Smaty	16 375
Заголовки по мета-тегу twitter:title (с повторами):	https://yadi.sk/i/QLRRKn9Y3SmayC	7 479
Заголовки по тегу h1 (с повторами):	https://yadi.sk/i/J0FMw6-P3Smb5D	16 527
Заголовки по тегу h2 (с повторами):	https://yadi.sk/i/nnz6ckH03Smb5h	24 673
Заголовки по тегу h3 (с повторами):	https://yadi.sk/i/YySKC2WE3Smb66	36 460
Заголовки по тегу h4 (с повторами):	https://yadi.sk/i/9-sOKsjy3Smb6k	12 385
Заголовки по тегу h5 (с повторами):	https://yadi.sk/i/yZHEuAyR3Smb7q	2 957
Заголовки по тегу h6 (с повторами):	https://yadi.sk/i/tqQ-TKwb3Smb8X	1 791

3 место Конвейер ⃰ по парсингу баз ключевиков (заголовков статей) от Грибника

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)