WebArchiveMaster - парсер Вебархива

Discussion in 'Продажа и покупка шаблонов ZennoPoster/ZennoDroid' started by footashes, Aug 21, 2017.

Thread Status:
Not open for further replies.
  1. Bahus

    Bahus Client

    Joined:
    Feb 15, 2017
    Messages:
    26
    Likes Received:
    5
    Зависает что-то Контент-вотч периодически

    [​IMG]
     
  2. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Вы получили сегодня обновление? Последнее обновление решает эту проблему. Дело в том, что проверка чекера прокси вызывало зависание из-за самого зависания сервиса (такое не было предусмотрено, так-как фирма серьёзная.). Или это что-то другое? Из-за сбоя компьютера обновление дошло не до всех. Сбросьте свой емейл в личку или на почту. Ручная проверка через браузер показывает то-же самое. Кстати, сейчас можно использовать прокси из встроенного проксичекера и своих прокси. Спасибо неравнодушным, кто хочет улучшений.
    Можно сделать проверку прокси через другой сервис или средствами Зенно, чтобы ни от кого не зависеть.
    Можете проверить чекер https://hidemy.name/ru/proxy-checker/ и отписаться.
    Чуть позже выложу видео парсинга прокси из встроенного в Зеннопостер проксичекера (напишите, нужно это или нет).

    Вот проверка через обычный браузер. Что-то у них сломалось, надеюсь, ненадолго. Такое висит уже целый день.

    Screenshot_2.jpg
     
    Last edited: Dec 8, 2017
    Astraport likes this.
  3. StarLight

    StarLight Пользователь

    Joined:
    Apr 6, 2017
    Messages:
    339
    Likes Received:
    10
    Поэтому я и говорю что нужно использовать встроенный алгоритм проверки уникальности, чтобы не надеяться :-)
     
  4. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Как ни прискорбно, но на этот раз ты прав. Вот только вся эта система заработает если не сегодня-завтра, а ты как был лузером, так и останешся, Ну или решится как нибудь без тебя.
     
  5. ailebedev

    ailebedev Client

    Joined:
    Sep 28, 2016
    Messages:
    11
    Likes Received:
    0
    [​IMG]
    Скрипт на хостинге. И в scraper и в настройках проекта менял все и я так понимаю через раз работает
     
  6. StarLight

    StarLight Пользователь

    Joined:
    Apr 6, 2017
    Messages:
    339
    Likes Received:
    10
    приятно познакомиться :-)

    конечно без меня, скоро выкачу пабликаналог. опенсорс :-)
    буддь здоров
     
  7. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    И тебе привет, старлаут
    Неоднократно было
    Всё работает чётко. я неоднократно объяснял, что нужно использовать Опен Сервер на своём компьютере - то, что обработчик работает через раз на непонятном хостинге не говорит, что он работает неправильно.
     
  8. StarLight

    StarLight Пользователь

    Joined:
    Apr 6, 2017
    Messages:
    339
    Likes Received:
    10
    ...и пять по английскому
    как же ты софт пишешь по eng таким скилом :-)
     
  9. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Забей, это был стёб. Ну и вот тебе, для... (сам придумаешь) - http://www.alleng.ru/d/rusl/rusl683.htm. Блядь, ты следишь за мной?
     
    Last edited: Dec 8, 2017
  10. ailebedev

    ailebedev Client

    Joined:
    Sep 28, 2016
    Messages:
    11
    Likes Received:
    0
    Опенсервер запущен. Папка со скриптом по заданному домену запущена и открывается в браузере. В файлике "C:\bots\WebArchiveMasters\scraper.txt" указан этот домен со скриптом. Все равно не работает, не пойму почему
     
  11. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Судя по нестандартным ошибкам даже из скриншота, что-то у вас не так. Не в моих правилах, но давайте я посмотрю через TeamViewer.
     
  12. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Вот у меня через Опен сервер. Всё как и должно быть, без сбоев.

    Screenshot_3.jpg
     
  13. ibelieve

    ibelieve Client

    Joined:
    Dec 24, 2012
    Messages:
    242
    Likes Received:
    94
    Только вчера добрались руки затестить шаблоны. За несколько часов достал уйму уник текста! Спасибо footashes за шабы и за то, что оставил их открытыми! Кое-что подправил под себя.
     
    Last edited: Dec 9, 2017
    footashes likes this.
  14. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Извиняюсь, запустил TeamViewer, он попросил обновиться и компьютер ушел в синий экран. Только сейчас удалось восстановить систему, нужно бы переустановить уже давно, но слишком много программ требует перепривязки после переустановки, придется пока так. Если ещё актуально, напишите на почту.
     
  15. StarLight

    StarLight Пользователь

    Joined:
    Apr 6, 2017
    Messages:
    339
    Likes Received:
    10
    чужие программы требуют перепривязки. привет матёрым кодерам :-)
     
  16. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Ну да, типа хрума, зенно и т.д. Иди лучше свою админку доделай.
     
  17. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Ребята, эти шаблоны должны быть у вас маст хэв, все темы дохнут, а Вебархив вас будет кормить до конца жизни.
     
    Sanekk and Kare like this.
  18. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Обновление проверки на плагиат через Text.ru и Content-watch.

    Сейчас в приоритете использование встроенного проксичекера со своими источниками. Как работать с чекером, смотрите в справке Зеннопостер.

    На данный момент логика такая - берем прокси из проксичекера (сейчас приоритет сместился именно на него, спасибо пользователям, которые предлагают идеи, как им будет более удобно работать), затем проверяет файл My_proxys на наличие прокси (если у вас есть список своих прокси), и затем, если ничего не нашлось, включается резервный вариант - забрать прокси онлайн и проверить их на работоспособность.

    Но в связи с тем, что чекер https://hidemy.name/ru/proxy-checker/ стал периодически подвисать, будет добавлен ещё один резервный вариант, который включится, если ничего не сработает. Повторяю, что это всё резервные варианты - сейчас приоритет у встроенного проксичекера с вашими паблик-источниками (которые у всех свои, в этом и смысл).

    Завтра напишу помощь и всем разошлю новый вариант проверки на уникальность.
    P.S.
    Сейчас внезапно именно в декабре у всех свадьбы, дни рождения, похороны, Новый год, поэтому, если я кому то где то что то не то написал и спросил, прошу отнестись с пониманием. Больше так делать не буду. Хотя ничего не обещаю.
     
    Last edited: Dec 12, 2017
    Kare and Astraport like this.
  19. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Поступило предложение совместить парсинг текста и проверку на уникальность. Такой комбайн - берется несколько статей с домена и проверяется на уникальность, если уникальность высокая, то парсятся все статьи, иначе проверяется следующий домен. Она будет идти в дополнение, возможно, кому-то так будет удобнее.
     
    Astraport and ailebedev like this.
  20. ailebedev

    ailebedev Client

    Joined:
    Sep 28, 2016
    Messages:
    11
    Likes Received:
    0
    Да, это будет намного удобнее и меньше действий в итоге
     
  21. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Хорошо, разберусь с проксичекером и займусь.
     
  22. ailebedev

    ailebedev Client

    Joined:
    Sep 28, 2016
    Messages:
    11
    Likes Received:
    0
    Вот за это "Перед каждым файлом пишется процент уникальности - например, Уникальность 0_13% - ваш текст.txt или Уникальность 83_04%" огромное спасибо.
    От 70% уника можно доработать до 100% уник и использовать в работе
     
  23. Xamius

    Xamius Новичок

    Joined:
    Dec 13, 2017
    Messages:
    2
    Likes Received:
    0
    А вот это ошибка почему выскакивает?
    Warning : DOMElement::setAttribute(): ID readability-content already defined in C:\Users\root\Desktop\OpenServer\domains\localhost\libraries\readability\Readability.php on line 697
     
  24. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    У вас должна быть последняя версия OpenServer. Или залейте скрипт на хостинг, такая ошибка бывает, когда не хватает библиотеки на локальном сервере.
     
  25. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Готова резервная проверка прокси, если чекер по каким-то причинам не будет работать. Разошлю завтра, нужно протестировать на объемах. Также готова помощь, многое переписано и добавлено. Можно её скачать сейчас.

    Screenshot_4.jpg

    Насчет совмещения скачивания текста и выборочной проверки на уникальность - возникли неожиданные технические проблемы, хотя, казалось бы - всё очень просто; причем такие, что дальнейшая разработка о совмещении под вопросом, так-как не имеет смысла. Попробуем разобрать некоторые:

    Берем несколько статей и проверяем на уникальность
    - сразу проблема - нужно взять несколько ссылок и прогнать их через фильтрацию, чтобы на начальном этапе отсечь мусор, вероятность, что из этих нескольких ссылок мусором окажутся все, запредельная. Значит, это нужно учесть - создание лишних списков, чтобы не затронуть основной, логика, циклы и т.д. Дальше, отфильтровали ссылки и пошли брать текст для проверки - вот только то, что есть ссылка, значит, будет текст, с Вебархивом не работает - этот текст он давно мог просто удалить, потребуется проверка через снепшоты, а это лишний запрос и время с, наверняка, нулевым результатом.

    Дальше ещё веселее - учет уника и неуника. Есть большая вероятность, что из оставшихся на проверку 4-5 статей могут оказаться уником, а весь остальной сайт копипастой и наоборот. Данные придется хранить в памяти плюс особо важные писать в файлы конфигурации. Ещё прокси - они могут попасться крайне медленными и то время, за которое скачался бы текст с сайта, будут проверены 3-4 статьи (прокси и загруженность сервиса, что неконтролируемо).

    Не менее важно, что всё учесть невозможно, и одна неучтенная ошибка разбалансирует всю систему, после чего баги полезут как тараканы со всех щелёй. Придется всё это тестировать и отлаживать на ходу, что неприемлемо - получится слишком громоздко.

    В принципе, все шаблоны открыты и вы можете подогнать это всё для себя, и тестировать также на себе. Я ещё подумаю, как это всё правильно сделать, но, по-моему, всё оказалось гораздо сложней. Это всё на опыте, я знаю, что обязательно произойдет что-то неучтенное и нестандартное.

    Да, лучше работать на своих прокси, даже пабликах. Проверка - один поток - одна папка, чтобы не было пересечений, что будет при пересечении потоков, без понятия, но что-то будет.

    Screenshot_5.jpg

    Да, и поаккуратнее с восстановлением сайтов - если видите, что текст очень хороший, но на скачивание его слишком много - значит, там залит дорвей и сайт просто бросили. Лучше отсекать текст.
     

    Attached Files:

    Last edited: Dec 13, 2017
  26. Xamius

    Xamius Новичок

    Joined:
    Dec 13, 2017
    Messages:
    2
    Likes Received:
    0
    Ошибка лезет, что значит?
    [​IMG]
     
  27. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Сбросьте id ошибки, так ничего не понятно. Если бесшаблонный парсер стоит на сервере, возможно, из-за пинга просто не успевает отвечать. Установите новую версию Open Server у себя. Может, слишком загружен процессор или нехватка памяти.
     
    Last edited: Dec 14, 2017
  28. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    С Дзеном усиленно никто не работал? Попробовал, что-то слабовато. Хотел запулить текстов из Вебархива - сейчас там жестко, нужен только уникальный текст - https://zen.yandex.ru/media/id/5989816de86a9e47babe5719.
    Screenshot_1.jpg
     
  29. martner

    martner Новичок

    Joined:
    Feb 11, 2016
    Messages:
    9
    Likes Received:
    2
    Привет!
    Отпиши, пожалуйста, в ЛС (на счет покупки шаблона)
     
  30. footashes

    footashes Client

    Joined:
    Feb 20, 2015
    Messages:
    738
    Likes Received:
    294
    Всем отправил. Обновлены Content-watch и Textru (добавлен резервный чекер прокси, обновление не критичное, на случай сбоя основного чекера). Если кому-то не пришло, пишите в ЛС или на емейл.
     
    Last edited: Dec 14, 2017
Thread Status:
Not open for further replies.

Пользователи просматривающие тему (Пользователей: 0, Гостей: 0)