WebArchiveMaster - парсер Вебархива | ZennoLab - Сообщество профессионалов автоматизации

footashes

Client

12.09.2017

#31

Практически готов спайдер сбора ссылок комментариев для создания своей тематической базы дропов под названием Black Widow Spider. Для чего это нужно - смотрите выше, скоро подготовлю видео о работе паука. Эта программа идет в связке с WebArchiveMasters - спайдер собирает тематические дропы, а парсер берет с них текста. Теперь не нужны списки доменов, программа найдет всё сама. Тестирование и доводка займет около недели. Все ранее купившие WebArchiveMasters, разумеется, получат её бесплатно.

Реакции: deninsto и Astraport

Astraport

Client

12.09.2017

#32

@footashes доработайте для работы с EN и куплю по тройной цене.

Fantomass

Client

16.09.2017

#33

footashes сказал(а):
R282711380496

Перевел 500 р., прошу выслать шаблон.

footashes

Client

17.09.2017

#34

Обновление парсера Вебархива WebArchiveMasters. Пофиксены следующие ошибки:

1. При скоростном парсинге возникала ошибка ResourceDownloader.GetResult. Добавлен блок таймаута на 40 секунд. При проверке больше такой ошибки не возникало.
2. Во многих случаях не срабатывала проверка на количество текста и программе приходилось все-таки делать полный цикл.
3. Были ошибки "слипшихся слов" - Врачпсихотерапевт, психиатр, сексопатологКандидат медицинских наукОпыт.

Это происходило из-за того, что программа убирала конструкцию <p></p> и дефис между словами -. Сейчас конструкция
восстановлена и текст имеет такой вид:

<p>Какой хлеб полезнее? Учитывая меньшую калорийность ржаного хлеба, его чаще, чем пшеничный,следует употреблять тем, кто склонен к полноте. Для здоровых людей полезнее ржаной хлеб из муки грубого помола. Но ржаной хлеб не рекомендуется при обострении язвенной болезни желудка и двенадцатиперстной кишки, хронического гастрита с повышенной кислотностью. В таких случаях показаны пшеничный хлеб,несдобные сухари. </p>

Для массовой проверки эти теги не оказывают влияния, антиплагиат их просто отбрасывает, но если нужно, их можно заменить на пробел. Программа работает со всеми языками, кроме английского, так-как общий смысл бота - удаление всех английских символов и html тегов. Сейчас идет работа над разработкой бесшаблонного парсера, работающего на HTML DOM, так-как DOM правильнее, чем регулярные выражения.

Общались на английских форумах, но все предлагают половинчатые решения. Двое фрилансеров отказались от разработки, так-как задача действительно очень сложная. Это не просто стандартный HTML DOM, здесь нужны собственные наработки. Человек на серче предлагал свою разработку, но связаться с ним не могу. Так что пока так.

Завтра хотел выложить Black Widow Spider на тестирование, но в связи с тем, что Ботмастер разбирается с Яндекс-капчей, брошу все силы на доработку WebArchiveMasters. Через 3-4 дня будет глобальное обновление, также в шаблонах напишу, что куда идет и за что отвечает, так-как сейчас обычному пользователю ничего не понятно. Это будет сделано для того, чтобы любой мог сам переобучить бота, как ему нужно.

Доработанный скрипт разошлю всем через пару часов.

Пишите заявки в личку, что бы вы хотели видеть.

Реакции: deninsto

footashes

Client

17.09.2017

#35

Да, и ещё - тестировал разработку нового типа дорвеев - http://cheerfulness.ru/, но до конца не довел, так-как потерял интерес. Хотел размножить текст по каждой рубрике с ключами, сделал половину и занялся другими делами. Просто выбросить жалко (хотел с ним участвовать в конкурсе). Сайт сделан полностью на Зеннопостере. Передам шаблон и ключевые слова 200 штук (если найду). Передача домена через REG.RU. Пишите в личку.Отдам вместе с хостингом (сайт около 5 гб).

Astraport

Client

17.09.2017

#36

footashes сказал(а):
Программа работает со всеми языками, кроме английского, так-как общий смысл бота - удаление всех английских символов и html тегов.

А если в тексте будут английские слова, названия компаний, фамилии, цитаты? Что будет с таким текстом?

footashes

Client

17.09.2017

#37

Абсолютно все английские слова удаляются, так-как весь HTML основан на английских словах. Это не полноценный HTML DOM, там все работает по совсем другим принципам. Сейчас ведется разработка через DOM, а не регулярки. Если это получится, это будет резкий рывок вперед, но готового решения, пока к сожалению нет.

Astraport

Client

17.09.2017

#38

footashes сказал(а):
Абсолютно все английские слова удаляются, так-как весь HTML основан на английских словах.

Такой подход даже костылём нельзя назвать))
Почему нельзя просто очищать HTML теги? На шарпе полно примеров.
Я всё же надеюсь, что вы доработаете свой продукт до нормального состояния, т. к. тема довольно перспективная.

footashes

Client

17.09.2017

#39

Тема перспективная - использование чужого труда в своих целях. Доработка будет в течении месяца. Но работать нужно - так что пока так.

footashes

Client

17.09.2017

#40

Astraport сказал(а):
Почему нельзя просто очищать HTML теги? На шарпе полно примеров.

Если бы все было так просто... Всем разослал обновленные шаблоны.

footashes

Client

17.09.2017

#41

Кто хочет почитать про бесшаблонный парсинг и думает, что это просто - велкам: https://www.nulled.cc/threads/221901/

footashes

Client

18.09.2017

#42

Нда, искал сложнейшие решения с помощью ИИ и нейронных сетей, а всё оказалось на удивление примитивным, спасибо Astraport, что подтолкнул в правильном направлении. Теперь программа работает со всеми языками, включая английский. Если текст в принципе можно спарсить, то программа его спарсит. Завтра выложу обновленную версию.
Прикрепляю пару текстов на разных языках.

Реакции: deninsto

Astraport

Client

18.09.2017

#43

Закинул английский текст из вложения в антиплагиаторы, нашлось как минимум 2 других источника с этим текстом.
Это же не уникальный текст?

Valiksim

Client

18.09.2017

#44

Astraport сказал(а):
Это же не уникальный текст?

Уникальный. ;-)

У тебя свой, у них свой :ce:

iskrakovrov

Client

18.09.2017

#45

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с iskrakovrov какие-либо сделки.

Так парсит не Ру на сегодня?

footashes

Client

18.09.2017

#46

Astraport сказал(а):
Закинул английский текст из вложения в антиплагиаторы, нашлось как минимум 2 других источника с этим текстом.
Это же не уникальный текст?

Это просто проверочный тест из очень известного сайта, данные есть в Вебархиве, но сам сайт работает. Проверка работоспособности парсера.

footashes

Client

18.09.2017

#47

iskrakovrov сказал(а):
Так парсит не Ру на сегодня?

Да, парсит. Но, разумеется, нужны иностранные дропы.

iskrakovrov

Client

18.09.2017

#48

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с iskrakovrov какие-либо сделки.

как купить?

footashes

Client

18.09.2017

#49

Кто хочет купить шаблон, вот реквизиты:
Вебмани: R282711380496
Яндекс-Деньги: 410011187505134

В примечании напишите свой емейл, на него будет выслан проект. Цена 500 рублей

iskrakovrov

Client

18.09.2017

#50

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с iskrakovrov какие-либо сделки.

Оплатил WM

footashes

Client

18.09.2017

#51

Завтра всем разошлю. Сейчас идет тестирование и переработка под новую логику.

Реакции: deninsto

iskrakovrov

Client

18.09.2017

#52

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с iskrakovrov какие-либо сделки.

отлично. жду.

iskrakovrov

Client

19.09.2017

#53

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с iskrakovrov какие-либо сделки.

footashes сказал(а):
Завтра всем разошлю. Сейчас идет тестирование и переработка под новую логику.

Сегодня-то будет? А то вечер уже, а так ничего и не прислал.

footashes

Client

19.09.2017

#54

Добавлен файл конфигурации Config.сfg. Это главная настройка отвечает за минимальную границу текста в символах. По умолчанию стоит 300 символов, программа проверяет страницу и берет количество символов, если их меньше 300, то берется следующая страница.
Чем ниже граница парсинга, тем больше парсится данных и захватывается мусора. Чем выше число, тем меньше данных, но и количество случайного мусора стремится к нулю. Здесь нужно подбирать число опытным путем.
Через пару часов разошлю всем.

footashes

Client

19.09.2017

#55

Всем разослал. Уникального текста просто завались, вот для примера первые попавшиеся домены:

На английском

Вот на русском

Вот примерная структура текстов, далеко не у всех такая, часто по 5-6 текстов; здесь весь смысл в массовой проверке нескольких сотен сразу, по одному проверять ...это уже похоже на вторую работу.

footashes

Client

20.09.2017

#56

Спайдер сбора ссылок комментариев для создания своей тематической базы дропов под названием Black Widow Spider. Сбор своей базы дропов по своей тематике. Существует обмен комментариями сайтов по своей тематике, например, на сайте с рецептами комментируют люди, имеющие близкую тематику и оставляют ссылку, ведущую на сайт, это практически сообщество, довольно узкий круг, без залетных.

Для чего это нужно?

Многие сайты уходят в небытие - люди забрасывают сайты, переезжают, меняют работы - и это, как правило, очень хорошие сайты с авторскими текстами - я работаю именно так, только отбираю вручную, отдаю программе и работаю с этими забытыми доменами, руки не доходят автоматизировать, позже приведу пример, если не ясно. А просто скаченный список доменов по ключевым словам - это 80% мусора, который программа перелопачивает, прежде чем наткнутся на что-то стоящее.

Что он делает?

Паук ходит по тематическим сайтам (например, строительной, женской или сайтам другой тематики) и собирает ссылки, находящиеся в никах пользователей, ведущей на их сайт.

Как работает?

1. БОТ берет ссылки с любых сайтов на любой платформе и на любых языках
2. БОТ самообучается - во время поиска ссылок пишет данные всех сайтов, на которые заходил. Если он зашел на Фейсбук или Твиттер и ему там не понравилось, при следующем случайном заходе он сравнит список и на них не пойдет.
3. Примерный принцип работы БОТА (алгоритм очень сложный) - Бот берет данные из файла (начальные URL, которые вы ему скормите, смотрите видео), создает карту сайта из данного урл и начинает ходить по страницам в поисках ссылок, берет ссылки из комментариев и начинает их проверять на ответ сервера, если ответа нет, бот идет в Вебархив и проверяет, есть ли там сайт. Если ответ положительный, смотрит количество ссылок, и если считает, что сайт перспективный, заносит его в список дропов.

Эта программа идет в связке с WebArchiveMasters - спайдер собирает тематические дропы, а парсер берет с них текста. Теперь не нужны списки доменов, программа найдет всё сама.

Программа идет в дополнение к WebArchiveMasters. WebArchiveMasters + Black Widow Spider = 500 рублей. Всем разошлю завтра ближе к вечеру.

Реакции: deninsto, NeGamer, Fantomass и еще 1 человек

footashes

Client

22.09.2017

#57

Всем разослал на тестирование.

footashes

Client

22.09.2017

#58

В следующей версии Black Widow Spider будет использоваться автоматический сбор карты сайта с задержкой. Сейчас эти данные может менять пользователь, а это не нужно, вероятность поиска дропов падает пропорционально. Также будет оптимизирован WebArchiveMasters.

infosimple

Client

23.09.2017

#59

Уникальный контен из вебархива трафик когда-нибудь давал?

footashes

Client

23.09.2017

#60

Недавно продал один сайт на Телдери, полностью на текстах из Вебархива. Сайт был принят во все биржи, начиная от Ротапост и заканчивая ГГЛ, принят в РСЯ, Гнездо и постоянно писали прямые рекламодатели. Сейчас делают миллиарды сайтов и статейникам сейчас особенно тяжело. Нужно делать все правильно - нужен трастовый домен, внедрение ключевых слов в статьи (это крайне важно!), просто статьи никакого трафика никогда не дадут, а в наше время особенно.

Именно поэтому в свое время эти сайты бросили - пишет человек интересный авторский текст, проходят месяцы и годы, а на сайте 80-100 человек, и потом на сайт накладывают фильтр АГС. Автор разочаровывается и бросает сайт, не понимая, как работают алгоритмы ПС. Именно поэтому дорвеи всегда будут работать лучше белых сайтов, так-как дорвейщики прекрасно понимают, что весь смысл в ключевых низкочастотных низкоконкурентных запросах, а текст может быть бредовым уникальным или слепленным из снипетов неуникальным.

Кстати, люди, делающие свои сайты (думаю, процентов 70), покупают статьи на различных биржах за копейки, добавляют его в оригинальные тексты, брендируют - если бы они знали откуда этот текст, сильно бы удивились.

Последнее редактирование: 23.09.2017

Реакции: deninsto

WebArchiveMaster - парсер Вебархива

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)