WebArchiveMaster - парсер Вебархива2

one

Client
Регистрация
22.09.2015
Сообщения
5 240
Благодарностей
878
Баллы
113

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
Какую конкретно?
Есть похожая формула для Колектора, похожая на ту, что использует Мутаген. Где то её выкладывали. Основана на математических вычислениях ранжирования сайтов для Яндекса. Смотрел, довольно близко.Всё меняется - как сейчас, не знаю, но думаю, как прежде.
 

leha52rus

Client
Регистрация
01.06.2017
Сообщения
219
Благодарностей
57
Баллы
28
А как сделать так что бы он складывал не все в кучу, каждая статья в отдельный файл
а то помойка какая-то получается у меня:-)
 

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
А как сделать так что бы он складывал не все в кучу, каждая статья в отдельный файл
а то помойка какая-то получается у меня:-)
Это первичный файл, после скачки всех текстов каждый текст формируется в свой файл, а этот удалится.
Screenshot_1.png
 
  • Спасибо
Реакции: leha52rus

leha52rus

Client
Регистрация
01.06.2017
Сообщения
219
Благодарностей
57
Баллы
28
А можно работать в многопоточку ?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
А можно работать в многопоточку ?
Там происходит слишком много процессов с перезаписью. В многопотоке можно работать так: клонировать папки и назвать их Вебархив1..Вебархив10 и каждую папку запустить в отдельном потоке, чтобы они не пересекались.
 
  • Спасибо
Реакции: leha52rus

leha52rus

Client
Регистрация
01.06.2017
Сообщения
219
Благодарностей
57
Баллы
28
Дзен кормишь как я понимаю исключительно из архива?
Как он интересно с копи\пастом ?
Быстро вылетают бложики, или какое то время держутся....?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
Дзен кормишь как я понимаю исключительно из архива?
Как он интересно с копи\пастом ?
Быстро вылетают бложики, или какое то время держутся....?
Нет, там другое. Вебархив - это ручное, а мне лень. Улететь может любой канал за стоп-слова, кликбейт или картинку, ссылку, или модератору что-то не понравится, поэтому нужно делать несколько каналов с разными тематиками. Ну и весь народ попер в Дзен, алгоритмы постоянно меняются. Видел крутейшие каналы с авторским текстом о жизни с просмотрами 50-100. И кучу шлака с просмотрами 1000-10000. Как оно работает и что именно выстрелит, никто не знает, можно только предполагать.
 

leha52rus

Client
Регистрация
01.06.2017
Сообщения
219
Благодарностей
57
Баллы
28

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
Ок, а вот у меня вопрос по Краулеру
И вот такая Картина
Я так понимаю ему хочется прокси?
Нет, некоторые ссылки не ведут напрямую на страницу с текстом, поэтому, если стандартно текст не берется, запускается перепроверка через Вебархив по снепшоту. Таких сайтов с редиректом немного, для них дополнительная проверка. Сбой сети - возможно, прерывается доступ к скрипту на Опен Сервере. Прокси не нужны, если нет множественных запросов (один поток).
 
  • Спасибо
Реакции: leha52rus

one

Client
Регистрация
22.09.2015
Сообщения
5 240
Благодарностей
878
Баллы
113

mih81

Client
Регистрация
08.02.2016
Сообщения
4
Благодарностей
1
Баллы
3
Приобрёл WebArchiveMaster
Пазобрался.
Всё работает спасибо.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
Сейчас провожу эксперимент с 5 каналами из Вебархива, так-как Яндекс хочет сделать именно блогосферу для авторов, типа ЖЖ, хотят прикрутить комментарии и многое другое. Думаю, сайты вчерашний день, нужно уходить в Дзен, который сам дает какой никакой трафик, а не ждать по месяцам с сайтами, когда ПС даст каплю трафика, и даст ли вообще. Через несколько дней, когда алгоритм подберет аудиторию, напишу, как оно пошло. Вот, закинул несколько часов назад, пока так:

Screenshot_1.png

Screenshot_2.png


Сейчас делаю каналы в Дзен, пока идет проверка на уникальность, через несколько часов запущу каналы (каждый канал на свой номер). На сервере с 1 гигом памяти работают: Хрум, (другой софт), Зеннопостер, Антиплагиат, куча папок и файлов. Если кто-то вам говорит, что для запуска нужен какой-то особый сервер, смело шлите его подальше. Я работаю на самом слабом сервере вроде, 500 рублей\месяц. В общем, сейчас работа выглядит это так:

Screenshot_2.png
Screenshot_3.png
Screenshot_1.png
Screenshot_4.png
Далеко не каждая тематика заходит в Дзен - выделю основные - политика и Развлечения. Хотя Дзен позиционирует себя как платформа для авторов, пока это не работает и у Дзена много уязвимостей.

Но я надеюсь на то, что они смогут нормализовать работу и запускаю белые каналы (хотя доход мне приносят серые) в надежде на долгосрочное сотрудничество. Отпишу через несколько дней.

Кто работает по Вебархиву - не используйте парсинг доменов, у вас не хватит времени и ресурсов обработать данные и отсеять шлак. Используйте мою методику на вероятностях, которая идет в архиве - я за 30-40 минут собрал несколько тысяч текстов разных тематик, из которых примерно 70-80% уник по текст.ру.

Завтра напишу подробнее, а сейчас советую не терять время - пока вы спите, кто-то зарабатывает. Что и как по Дзену - неофициальный канал: https://web.telegram.org/#/[email protected]
P.S.
У меня сейчас 11 каналов на монете(доры), но сейчас упор буду делать на белые, и вам советую.
 
Последнее редактирование:

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
Опять в Дзене влупили только топовые каналы. Ска, обещали двинуть обычных блогеров-авторов. Меняют всё на ходу. Мои доры растут, а отличные тексты у интересных авторов подают до нуля. К примеру, этот - https://zen.yandex.ru/sirota
 

99387

Новичок
Регистрация
01.03.2018
Сообщения
2
Благодарностей
0
Баллы
1
Комрады! Как в ЛС тут писать? Капец туплю...
 

Mikhail B.

Moderator
Регистрация
23.12.2014
Сообщения
6 731
Благодарностей
2 201
Баллы
113

99387

Новичок
Регистрация
01.03.2018
Сообщения
2
Благодарностей
0
Баллы
1
Почему-то я так и подумал....ладно, буду заколёбывать вопросами человека по почте и тут ))
 

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
Извиняюсь. Обновился Фаерфокс и снес мне все данные и плагины (всё было завязано на нём, больше нигде не хранилось). Сейчас всё восстановлено и я работаю в полном режиме.
Сейчас у меня 11 доров на Дзене и несколько "белых" каналов - все обработать я не могу даже с помощью программы постинга в каналы, поэтому выложу здесь:
Здесь несколько тематик, напарсенныз Мастером Вебарзива, которые я физически не могу обработать. Скажу, что за этим будущее - выборы пройдут, а Вебархив вечен. У меня 11 каналов на монете, но будущее за белыми, вот такими - https://zen.yandex.ru/media/id/5a9413a35f496758d117e7fb.
У меня работает Зенно:
1.jpg

2.jpg

Дзен пока не особо балует - но за уником будущее. Людям нравится - набрать подписоты и слить на партнерку - сейчас, для меня - это как модернизация спам-рассылки: новый уровень.
Да, кому нужно быстро и программно проверить много текста на уник - пишите на почту.
 

Вложения

Последнее редактирование:

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
Тут ключевое слово даже не уникальный контент, а "горячая" тематика. Вот только выборы (блять, выборы) борипа кончатся, а Дзен позиционирует себя как блог-платформа. Я так понимаю, хочет заместить ЖЖ. Тем не менее, он дает живой трафик и грех жаловаться.
 

karol

Новичок
Регистрация
02.03.2018
Сообщения
7
Благодарностей
1
Баллы
3
Кто работает по Вебархиву - не используйте парсинг доменов, у вас не хватит времени и ресурсов обработать данные и отсеять шлак. Используйте мою методику на вероятностях
Не пойму о какой методике речь?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
Не пойму о какой методике речь?
Та, которая видео. Основана на вероятностях того, что сообщество по интересам рекламируют свои сайты на сайтах близкой тематики.
 

enema

Новичок
Регистрация
08.02.2018
Сообщения
20
Благодарностей
3
Баллы
3
Та, которая видео. Основана на вероятностях того, что сообщество по интересам рекламируют свои сайты на сайтах близкой тематики.
но часто это блоги от 1го лица, или блоги о себе, такие тексты особо ни кому не нужны
 

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
но часто это блоги от 1го лица, или блоги о себе, такие тексты особо ни кому не нужны
Много и от третьего лица, я называю их "заточенные под семантику", в основном для открутки контекста, лично меня они раздражают. Всегда были авторские тексты, направленные на взаимодействие с аудиторией с последующей продажей (курсов, сбора подписчиков и т.д.). Как правило, такие тексты наиболее комментируемые, а не прочитал и забыл.
Но это ближе к блогам и блогплатформам.
 

iskrakovrov

Client
Регистрация
28.03.2015
Сообщения
365
Благодарностей
64
Баллы
28
А обновки давно были? А то раньше с завидной периодичностью приходило на почту, а сейчас уже месяца полтора тишина. Ничего не менялось? (iskrakovrov(животное)gmail.com)
 

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
Обновление WebArchiveMaster - парсер Вебархива.
  • Добавлен глобальный черный список - проверяемый домен сравнивается со списком, и если этот домен там присутствует, берется следующий, иначе парсится текст и при удачном завершении этот домен дописывается в черный список. Это сделано, чтобы домены не дублировались, если он уже проверялся.
  • Сделаны выходные настройки, чтобы было удобнее (с пояснениями).
  • Переработана помощь
  • Улучшена фильтрация
  • Алгоритм остался прежним, там менять нечего
  • Переработана проверка на отсечение категорий. Она значительно убирает ненужные страницы, но дает много запросов к Вебархиву, поэтому можно использовать в 1-2 потока.
Разошлю сегодня вечером или завтра к обеду (после тестирования).
 
  • Спасибо
Реакции: jemeni, one и AvraamZukoaa

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
Через 2-3 дня будет глобальное обновление. Теперь можно отсекать категории на списках стоп слов, которые вы можете дополнять для себя:

Код:
далее…
Далее...
Читать дальше
read more
Read more
Read More
Read more…
Read the rest of this entry
Читать продолжение записи
[...]
[Читать далее]
(далее…)
Это позволит отсечь 90% шлака. Все данные будут дополнительно сохраняться в папку этого же домена с префиксом для анализа. Также небольшая оптимизация кода. Работает на v. 5.9.9.1, остальные версии нестабильны. Одна из ошибок старших версий - остановка инстанса и нереагирование на задания.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
785
Благодарностей
310
Баллы
63
Через 2-3 дня будет глобальное обновление. Теперь можно отсекать категории на списках стоп слов, которые вы можете дополнять для себя:

Код:
далее…
Далее...
Читать дальше
read more
Read more
Read More
Read more…
Read the rest of this entry
Читать продолжение записи
[...]
[Читать далее]
(далее…)
Это позволит отсечь 90% шлака. Все данные будут дополнительно сохраняться в папку этого же домена с префиксом для анализа. Также небольшая оптимизация кода. Работает на v. 5.9.9.1, остальные версии нестабильны. Одна из ошибок старших версий - остановка инстанса и нереагирование на задания.
Сейчас делаю видео, где покажу, как это работает - выложу через 2-3 часа, не пропустите. Мой основной контент на Дзене - Вебархив. И сегодня разошлю обновление - нет дополнительных запросов к Вебархиву, скорость не замедляется, отсеивается 90% ненужных категорий.
 
  • Спасибо
Реакции: AvraamZukoaa и karol

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)