WebArchiveMaster - парсер Вебархива2

one

Client
Регистрация
22.09.2015
Сообщения
6 793
Благодарностей
1 264
Баллы
113

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
Всё упиралось в проверку текста на уникальность. Мало скачать текст, его ещё нужно проверить. Теперь решение найдено. Скорость проверки увеличилась в несколько раз. Предлагаю принять участие в тестировании.

Чтобы принять участие в тестировании, сбросьте на кошелек 200 рублей с пометкой Textru и электронной почтой, после чего в понедельник утром я вышлю инструкцию в формате видео (5-6 минут). Если тестирование пройдет успешно, функционал проверки будет внедрен в WebArchiveMasters. Это позволит создать полный автомат по парсингу и одновременно проверки текста на уникальность через Text.ru.

Это уменьшит скорость парсинга, но придется чем-то платить. Алгоритм пока не ясен - проверять все статьи или выборочные. Также эта функция будет отключаемой. После обкатки цена также будет увеличена. Это не коснется тех, кто уже приобрел шаблон.

Если у вас есть идеи, что бы вам хотелось видеть, пишите - [email protected]

P.S.

Данные протестированы и видео готово (7 минут). Вышлю завтра в 9-12 часов по НСК (Новосибирск). В видео я рассказываю, что за что отвечает и как это работает. Это будет бомба!
 
Последнее редактирование:
  • Спасибо
Реакции: one

Hramovnik

Новичок
Регистрация
13.04.2015
Сообщения
3
Благодарностей
0
Баллы
1

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
Что-то так пока и не получил обновление WebArchiveMastersV3.3
Ну так зачем сюда писать, всем отправил, несколько писем вернулось с ошибкой, что у получателя переполнен ящик. Или посмотрите в спаме. Пишите сюда -
[email protected].

Также сегодня разошлю мануал тем, кто отписался.

Внимание - рассылаю мануал.

Отправил - по всем вопросам прошу писать на электронную почту: [email protected]

P.S.

Всем, кто написал - отправил.
 
Последнее редактирование:

Expel

Client
Регистрация
14.05.2018
Сообщения
17
Благодарностей
6
Баллы
3
Полный улет! Тестирую шаб - все работает. Изучаю и дальше возможности парсинга и ручного поиска. Так же вспомните про еще один шаблон для Дзен(или он уже встроен в твой шаб вебархива?). Разработчику респект
 

jekula

Новичок
Регистрация
12.11.2018
Сообщения
12
Благодарностей
5
Баллы
3
Чтобы принять участие в тестировании, сбросьте на кошелек 200 рублей с пометкой Textru и электронной почтой, после чего в понедельник утром я вышлю инструкцию в формате видео (5-6 минут). Если тестирование пройдет успешно, функционал проверки будет внедрен в WebArchiveMasters. Это позволит создать полный автомат по парсингу и одновременно проверки текста на уникальность через Text.ru.
Ещё актуально ? Так же продублировал на почту
 

Pioner

Client
Регистрация
14.08.2017
Сообщения
1
Благодарностей
0
Баллы
1
Тексты лежать в папках с названием сайта в папке "made websites", а для проверки уникальности нужны сами файлы. Можно ли сделать чтоб в папку "База статей" для проверки можно было класть папки (сайты со всеми файлами), а не только файлы?
 

Webfrilanser

Новичок
Регистрация
07.12.2017
Сообщения
23
Благодарностей
0
Баллы
1
footashes, Здравствуйте уменя такая проблема: Установил Ruby а точнее railsinstaller-3.4.0 установил, Запустил Командную строку в которой ввёл запрос: gem install wayback_machine_downloader потом когда появилась Вот такая строка: C:\Sites> я ввёл вот такой адрес: wayback_machine_downloader http://site.ru --to 20180120053853 и мне выдаёт вот такую картину: http://prntscr.com/lj7dq6

Скажите пожалуйста что я делаю не так? Уменя ОС: Windows 7 SP 1
 

Webfrilanser

Новичок
Регистрация
07.12.2017
Сообщения
23
Благодарностей
0
Баллы
1
Друзья помогите разобраться данной проблемой! не знаю что такое на Windows 10 ранее прога Руби работала без проблем и сайты с Вебархива выкачивал !
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
Тексты лежать в папках с названием сайта в папке "made websites", а для проверки уникальности нужны сами файлы. Можно ли сделать чтоб в папку "База статей" для проверки можно было класть папки (сайты со всеми файлами), а не только файлы?
Можно, уже спрашивали. Это будет в следующей версии.
Друзья помогите разобраться данной проблемой! не знаю что такое на Windows 10 ранее прога Руби работала без проблем и сайты с Вебархива выкачивал !
У меня 10, все работает. На 7 тоже работала. Возможно, нужен SP3 или установить NET 4.5. Скиньте пару доменов для проверки.
P.S.

Траванулся некачественным бухлом и выбыл из строя на пару недель. Всего с одной бутылки полегли вчетвером, чуть печень не выплюнули. Подготовка к Новому Году не удалась. Водка то была недешевая. Так что имейте в виду и пейте пиво на розлив. А я пью таблетки до Нового Года.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
Не, я искренне сочувствую, поверь. Выше сказанное, исключительно для поднятия настроения в данной ситуации.
Обновление проверки текста на плагиат TextruV1.2
  • Теперь можно проверять текст по домену сразу в папках
  • + Еще больше скорости и стабильности
Screenshot_1.jpg


Также не упустите возможность проверки на уникальность - https://zennolab.com/discussion/threads/webarchivemaster-parser-vebarxiva2.45531/page-14#post-394510. Вечером перепишу мануал, сделаю видео с обзором (на Ютуб) и разошлю.

Вебмани: Z251978534905, R282711380496
Яндекс-Деньги: 410011187505134
Киви - +7 961 999‑51‑37
PayPal - [email protected]
 
  • Спасибо
Реакции: Nike59

goldenbux

Client
Регистрация
06.09.2018
Сообщения
84
Благодарностей
44
Баллы
18

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
По content-watch планируются обновления?
Да, на днях

Небольшие изменения в TextruV1.2 - пакетная проверка текста. Всем отправил.


На всякий случай дам ссылку на магазин - https://www.plati.market/itm/webarchivemastersv3-3/2553934. Туда-же входит и мануал проверки Текст.ру
 
Последнее редактирование:
  • Спасибо
Реакции: goldenbux

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
Решил опять заняться Яндекс.Дзен. Времени много, сайтов напарсил нормально, 3 дня назад запустил проверку на уникальность. Проверял на Лайте 1,5 суток 3000 текстов по методике, так-как имеет смысл заходить сразу на 10 каналов. Хочу попробовать сливать на сайт, посмотрим, что выйдет.

На пробу сделал канал - прошло где-то сутки (канал делал ночью), там 9 статей женской тематики. Вижу заходы Толокеров. Пока так:

Screenshot_1.jpg

Выводить на монету не собираюсь, хочу попробовать пустить трафик на сайт с 10 каналов одновременно дней через 10. Потом как-нибудь отпишу, чем закончилось.

Кстати, кто хочет посмотреть переходы проверок с Толоки, может, пригодится:
Screenshot_2.jpg
 
Последнее редактирование:
  • Спасибо
Реакции: Buch

seoshmeo2018

Новичок
Регистрация
15.03.2018
Сообщения
23
Благодарностей
1
Баллы
3
Решил опять заняться Яндекс.Дзен. Времени много, сайтов напарсил нормально, 3 дня назад запустил проверку на уникальность. Проверял на Лайте 1,5 суток 3000 текстов по методике, так-как имеет смысл заходить сразу на 10 каналов. Хочу попробовать сливать на сайт, посмотрим, что выйдет.

На пробу сделал канал - прошло где-то сутки (канал делал ночью), там 9 статей женской тематики. Вижу заходы Толокеров. Пока так:

Посмотреть вложение 33779
Выводить на монету не собираюсь, хочу попробовать пустить трафик на сайт с 10 каналов одновременно дней через 10. Потом как-нибудь отпишу, чем закончилось.

Кстати, кто хочет посмотреть переходы проверок с Толоки, может, пригодится:
Добрый день!
Спасибо шаблон работает отлично.
Вопрос к автору у вас есть мануал как отбирать домены где есть контент ???
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
Добрый день!
Спасибо шаблон работает отлично.
Вопрос к автору у вас есть мануал как отбирать домены где есть контент ???
Мануал есть в высланном файле в видеоформате и так и называется - "Мануал". В сам WebArchiveMasters встроен парсер доменов, который основан на этом мануале. Принцип работы - на сайтах в комментариях оставляют ссылки на сайты близкой тематики. То есть основано на вероятностях, что на сайте по кулинарии комментировать будут люди с близкой тематикой.

Есть много разных методов - например, поиск по ключам у регистраторов доменов. Принцип логичный - если сайт о женщинах, должно включаться корневое слово для пользователей - wom, gerl, kras, в сайтах о здоровье - zdor и т.д. Другое дело, что так можно отобрать тысячи сайтов, 80% которых придется отсеивать, для етого потребуются нереальные мощности, чтобы всё это обработать. Именно поэтому используется методика, которая поваляет работать точечно.

На неделе скачаю список доменов и попробую найти приемлемое решение. Но не факт, что что-то выйдет. Ну и тематика - чем она уже, тем пропорционально сложнее.

P.S.

Кстати, давно была идея поиска по ключам - примерный алгоритм: рандомно берем с сайта 5-10 страниц и по ключевым словам ищем совпадения. Например, нам нужно найти сайт автотематики - забираем 10 страниц и проверяем совпадения по ключам (ключей должно быть много - автомобиль, покраска и т.д.) Технически это несложно, скорее всего, будет в следующей версии. Тогда можно будет быстро проверять по спискам регистраторов.
 
Последнее редактирование:
  • Спасибо
Реакции: andrek и Buch

deonisii

Client
Регистрация
23.03.2012
Сообщения
92
Благодарностей
14
Баллы
8
Переодически шаб начинает глючить. В 20 папках куча текстовых документов весом 1 килобайт. Лимит стоит на 1000 симв. Проверял домен в вебархиве, - текста на нём много. До этого тоже так было. В чём может быть дело?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
Переодически шаб начинает глючить. В 20 папках куча текстовых документов весом 1 килобайт. Лимит стоит на 1000 симв. Проверял домен в вебархиве, - текста на нём много. До этого тоже так было. В чём может быть дело?
Скиньте домен и папку на почту. Версия Зеннопостер должна быть 5.17.2.0.
 

deonisii

Client
Регистрация
23.03.2012
Сообщения
92
Благодарностей
14
Баллы
8
Сообщение не уходит к Вам на почту. Ни с майла, ни с яндекса.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
Сообщение не уходит к Вам на почту. Ни с майла, ни с яндекса.
Почему? [email protected] или кидайте в личку.

P.S.
Проверил, все работает правильно. Проверял с шагом 1000 на версии ZennoPoster RU 5.17.1.0:
Screenshot_1.jpg

Ни разу с таким не сталкивался, чтобы парсилось одно слово, хотя шаблон работает круглосуточно. Точно используется версия ZennoPoster RU 5.17.1.0, так-как на новых версиях не проверялось?

Также нужно обучать фильтрацию - она сделана специально для этого; дефолтные настройки желательно дополнять своими признаками:
Screenshot_2.jpg

Также желательно пользоваться методикой, а не списками доменов по ключам, есть вероятность напороться на дорвей, так-как забирается весь текст.

Пример первого попавшегося домена с шагом 1000, всего было выборочно проверено пять:

Сообщение не уходит к Вам на почту. Ни с майла, ни с яндекса.
В архиве был выслан Краулер.xmlz, Гмайл скрипты не дает принимать и отправлять.

Кстати, проблема может быть, если запущено одновременно 5-7 папок, вебархив может посчитать это Ддосом. Тогда нужно использовать прокси. В один поток я с таким не сталкивался.
 

Вложения

Последнее редактирование:

legion2k

Client
Регистрация
30.09.2010
Сообщения
67
Благодарностей
36
Баллы
18
вашим парсером можно парсить и другие языки?
или же пока проверка на уникальность только для РУ текстов?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
вашим парсером можно парсить и другие языки?
или же пока проверка на уникальность только для РУ текстов?
Можно парсить на любых языках.
Текст.ру тоже проверяет везде.

Принцип работы (кратко) - если 5 поточный Зеннопостер - размножаем папки Вебархивмастер1...Вебархивмастер3, закидываем домены и делаем общим блеклист (программа будет помещать отработанные домены в черный список и сравнивать, есть ли такой домен в блеклисте, чтобы не проверять одно и тоже несколько раз), на остальные два потока вешаем проверку на уникальность. Текст парсится и проверяется, после работаем только с уникальным текстом. Это позволит сэкономить время при массовой проверке.
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
Много вопросов на почту, которые есть в 99% в WebArchiveMasters.pdf. Я уже выкладывал, но никто не хочет читать, проще написать на почту. Выкладываю ещё раз.
Также посмотрите на ютюбе - https://www.youtube.com/channel/UC8KWTV1hNHa1a0f6xC22W0Q?view_as=subscriber

4 будет позже, сейчас перегружен другими делами. По быстрой проверке на уникальность смотрите здесь - https://zennolab.com/discussion/threads/webarchivemaster-parser-vebarxiva2.45531/page-14#post-394510.
 

Вложения

Последнее редактирование:

dmitronix

Client
Регистрация
25.05.2016
Сообщения
13
Благодарностей
3
Баллы
3
Хочу купить шаблон. куда писать???
Тема ещё жива?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
Хочу купить шаблон. куда писать???
Тема ещё жива?
Отписал на почту.

Screenshot_2.jpg

Цена - 500 рублей. Шаблон полностью открытый и без привязок. Если нужно решение по скоростной проверки на уникальность, то +200 рублей.

Вебмани: Z251978534905, R282711380496
Яндекс-Деньги: 410011187505134
Киви - +7 961 999‑51‑37
PayPal - [email protected]
 
Последнее редактирование:
  • Спасибо
Реакции: Unipostmaster

Maksimus

Новичок
Регистрация
08.10.2018
Сообщения
18
Благодарностей
0
Баллы
1
после установки новой версии текст.ру совсем пропала проверка гоняет прокси туда сюда , ставит новые и снова собирает https://clip2net.com/s/3YljVa4

ставить обратно прежнюю версию ?
 

footashes

Client
Регистрация
20.02.2015
Сообщения
1 041
Благодарностей
426
Баллы
83
после установки новой версии текст.ру совсем пропала проверка гоняет прокси туда сюда , ставит новые и снова собирает https://clip2net.com/s/3YljVa4

ставить обратно прежнюю версию ?
Прокси - проксичекер или свои? Попробуйте это решение - https://zennolab.com/discussion/threads/webarchivemaster-parser-vebarxiva2.45531/page-14#post-394510. За несколько часов проверил болше 300 текстов. Автоматическая проверка - это крайний случай, она включается, если нет своих данных в проксичекере или своих прокси. Как правило, публичные прокси срабатывают 1 к 10.
 

GerrASim

Новичок
Регистрация
04.12.2018
Сообщения
4
Благодарностей
0
Баллы
1
Привет! А у меня почему-то опен сервер и (другой софт) не работают одновременно. Сервер настроил на порт 8080, (другой софт) на восьмидесятом. При прроверке в зенннопостере в разделе каптчи и при заходе на http://full-text-rss/ вылезает html код сстраницы вот с этой надписью
Здесь живёт (другой софт)!
Авторизация пройдена успешно.
Чтобы возобновить работу с сайтом full-text-rss, удалите соответствующие строки из системного файла hosts (см. справку программы (другой софт))
Как вы сделали, чтоб они работали?
 

GerrASim

Новичок
Регистрация
04.12.2018
Сообщения
4
Благодарностей
0
Баллы
1
Решилось. почистил hosts файл и иксевил запустил перед опенсервер
 

Oleg555

Новичок
Регистрация
30.07.2018
Сообщения
1
Благодарностей
0
Баллы
1

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)