Поиск статей

Sergodjan · 30.08.2019

artsmm сказал(а):
Всем привет
Можете подсказать, в каком направлении думать по следующему вопросу:

я нашел регулярку, которая чисто парсит тексты, без мусора с любого сайта. У меня один вопрос только остался - как искать именно информационные статьи на этих сайтах? Пока мысль такая - выделить теги, в которые завернуты статьи и по ним искать..

Еще вопрос - есть ли возможность взять дом модель всего сайта, а не только ту страницу, на которую зашел?

Можно брать текст со страниц в результате проверки на кол-во слов или символов, а также в результате проверки кол-ва слов или символов в отд. предложениях.
Если кол-во меньше какого то указанного порога, то выбрасывать такой текст.

Насчет DOM сайта, такого понятия нет, есть DOM именно страницы.

TwistDanceR · 30.08.2019

artsmm сказал(а):
Понял. Про дом сайта спрашивал, потому что статьи всегда находятся не сразу на главной, а например в разделе статьи. Те в раздел статьи зайти сначала надо, а потом парсить

Ну да, это только, как сказал Сергоджан, - искать отличительные особенности информационных статей. Наверное там что-то да найдется, и можно будет исключить треш. Стоп-слова посмотри, может поможет.

А про загрузку DOM - это естественно, структура сайтов такая, не чтобы все на главной было )) Обычно так и делают - рубрикация контента тоже важна любому вебмастеру.

А вот насчёт парсинга - можно попробовать такую логику.
В разделе - есть статьи.
1)Если есть пагинация - закидываешь все пагинации в листок. К каждому URL применяешь GET - спарсил DOM всех страниц рубрики.
2) Потом(или если нет паги) парсишь все ссылки на внутренние статьи - так же, Regexom. Складываешь в список - получаешь ещё один список - ссылки на все статьи.
3) Тут же GETом парсишь по списку статей - все DOM'ы статей. Применяешь регулярку свою и вуа-ля. Все тексты у тебя "на лицо". Кладёшь каждый результат в новый файл/список/как удобно.

На шаге 2, к слову, можно все DOMы рубрики записать в один файл, и потом этот файл - тем же образом REGEX'ом чикнуть на составляющие - и сложить куда хочешь :-)

Прости если банальщину левую написал) Чё-то понесло меня на форум читать, писать, да уму набираться.

P.S. Шаблоны с GET лучше использовать без браузера - быстрее работает, как я заметил, а обработка текстов - вообще в касание вылетает.

TwistDanceR · 30.08.2019

artsmm сказал(а):
Или такая идея еще есть - выделить признаки сайтов на wordpress, либо взять у хрумоводов например и парсить статьи уже по известным признакам

Если есть стак признаков - то почему бы и да! :-)

А так у тебя все домы под рукой - поискал признак, проверил, не понравился - удалил :do:

Шива · 31.08.2019

artsmm сказал(а):
Спасибо за помощь)
У меня по таким признакам нормально ищет (много статей выходит те) -
* Торговля на форекс inurl:”wordpress"
* Торговля на форекс inurl:”blog"
ключи любые

"блог" не универсальный, просто для теста
WP лучше всего

Я заказал парсинг выдачи по ключам здесь
https://zennolab.com/discussion/threads/parsing-vydachi-gugla-i-ne-tolko.62592/#post-453157
потом почистил дубли и спарсил статей.
Вышло почти 700к статей

Поиск

Поиск статей

artsmm

Client

Sergodjan

Administrator

artsmm

Client

TwistDanceR

Активный пользователь

artsmm

Client

TwistDanceR

Активный пользователь

artsmm

Client

artsmm

Client

Шива

Client

artsmm

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)