Ищу алгоритм парсинга текста статьи HTML-страницы (без меню, футеров и прочего мусора)

Dimionix · 10.12.2017

Если бы использовался браузер, то что-то типа такого

C#:

return instance.ActiveTab.MainPageArticle;

Lord_Alfred · 10.12.2017

orka13 сказал(а):
2. Можно идти по методу исключения: удалять из кода блоки <div>, <span> с признаками (class \ ID) слов “footer\menu\comment\@copyright”, но все-равно что-то останется. Ведь можно натренировать парсер на популярных движках (Wordpress, DLE…), но все-равно найдутся самописные сайты, у которых верстка без обозначений структуры пойдет, и их коряво обработает.

Это точно не вариант, т.к. придется составлять огромную базу признаков, а в итоге всё равно что-нибудь пойдет не так :-)

orka13 сказал(а):
3. Или придумывать свой метод, например: берем весь текст страницы, потом (хз каким способом, может кучей условий с подсчетами символов, предожений …) ищем концентрацию длинных предожений. Все что за пределами этой «концентрированной» зоны считаем лишним и удаляем.

Вот в плане теории - это лучшая идея, но вот каким образом такой хитрый "разбор" тегов делать - совершенно не ясно.

Думаю, по логике всё равно придется пользоваться каким-то либами, которые смогут по тегам разложить код страницы, чтобы по нему можно было ходить как по "дереву". Сразу же наверняка стоит задуматься о том, что после генерации "дерева" - можно будет удалить кучу тегов, которые не могут содержать контент (<head></head>, <script></script> и тд - их не так много, могу помочь с составлением списка тегов под однозначное удаление). Потом нужно действительно как-то "пройтись" по такому дереву и сопоставить где будет находиться наибольшее количество текста внутри тегов, которые граничат друг с другом. Но вот каким образом делать такого рода подсчет - сходу в голову ничего не приходит.

Задача сложная и интересная, надеюсь, что кто-нибудь предложит свои варианты или ссылки о том, как эту задачу решают какие-то инструменты, а там можно будет смотреть и делать по их аналогии. Понятно дело, что поисковикам с этим проще, т.к. они могут просто пройтись по всем (нескольким) однотипным страницам сайта и понять где изменяющиеся блоки, но в рамках "парсинга контента с множества ссылок" - это тупиковый путь.

PS: бегло посмотрел jusTex - судя по коду он это всё и делает) прям как тут описали мы

Dimionix · 10.12.2017

Кстати, в iPhone и iPad в стандартном браузере Safari есть кнопка "Вид Reader" - режим для чтения статей, на странице остаются только текст и изображения.
Оттуда бы технологию позаимствовать 8-)

zortexx · 11.12.2017

100 лет назад на хабре была статья о логике извлечения текста со страницы. Использовался обратный подход: то есть сначала исключались бесполезные элементы, а потом парсилось то, что осталось. Смысл был в построении структурной модели элементов страницы, где у каждого признака есть свой вес и решение об исключении принимается на основе как минимум двух таких признаков. Хидер, навбар, списки навигации, хлебные крошки, футер: главный признак , помимо тегов - обилие ссылок.

Lord_Alfred · 11.12.2017

orka13 сказал(а):
Ну к примеру, для потомков опишу логику на обычных регулярках, как сейчас шаб у меня работает:

Имхо, регулярками такое делать не очень - они априори будут медленнее и более нагружать систему, чем какая-нибудь либа, которая разбирает html на дерево. Я вот с HtmlAgilityPack не работал - он не это как раз делает?

zortexx сказал(а):
100 лет назад на хабре была статья о логике извлечения текста со страницы. Использовался обратный подход: то есть сначала исключались бесполезные элементы, а потом парсилось то, что осталось. Смысл был в построении структурной модели элементов страницы, где у каждого признака есть свой вес и решение об исключении принимается на основе как минимум двух таких признаков. Хидер, навбар, списки навигации, хлебные крошки, футер: главный признак , помимо тегов - обилие ссылок.

А есть ссылка на ту статью с хабра? Понятно дело, что таких реализаций много, но вот не все опенсорсят это + не каждая хороша )

doc · 11.12.2017

https://habrahabr.ru/company/mailru/blog/200394/

VladZen · 11.12.2017

Lord_Alfred сказал(а):
Это точно не вариант, т.к. придется составлять огромную базу признаков, а в итоге всё равно что-нибудь пойдет не так

Вот в плане теории - это лучшая идея, но вот каким образом такой хитрый "разбор" тегов делать - совершенно не ясно.

Думаю, по логике всё равно придется пользоваться каким-то либами, которые смогут по тегам разложить код страницы, чтобы по нему можно было ходить как по "дереву". Сразу же наверняка стоит задуматься о том, что после генерации "дерева" - можно будет удалить кучу тегов, которые не могут содержать контент (<head></head>, <script></script> и тд - их не так много, могу помочь с составлением списка тегов под однозначное удаление). Потом нужно действительно как-то "пройтись" по такому дереву и сопоставить где будет находиться наибольшее количество текста внутри тегов, которые граничат друг с другом. Но вот каким образом делать такого рода подсчет - сходу в голову ничего не приходит.

Задача сложная и интересная, надеюсь, что кто-нибудь предложит свои варианты или ссылки о том, как эту задачу решают какие-то инструменты, а там можно будет смотреть и делать по их аналогии. Понятно дело, что поисковикам с этим проще, т.к. они могут просто пройтись по всем (нескольким) однотипным страницам сайта и понять где изменяющиеся блоки, но в рамках "парсинга контента с множества ссылок" - это тупиковый путь.

PS: бегло посмотрел jusTex - судя по коду он это всё и делает) прям как тут описали мы

jusTex - это сторонний софт?

Lord_Alfred · 11.12.2017

VladZen сказал(а):
jusTex - это сторонний софт?

Это бесплатная опенсорсная либа для питона

Lord_Alfred · 11.12.2017

orka13 сказал(а):
То есть этот код должен был заменить хотя бы 1-3 шаги из моего предыдущего поста. А на практике получилось что он только шаг №1 заменил нормально.

По логике скорее всего нужно предварительно всё таки чистить html код от лишних тегов, которые не могут содержать текст, а потом не через InnerText получать, а как выше писали - классифицировать теги, обходом по дереву. Думаю, раз там есть nod'ы, то по ним можно как-то итерировать и на основе знаний о том, что текст должен быть определенного минимального объема (можно подсмотреть в том же jusText, там в core.py сверху есть) - присваивать веса, а потом на основе весов брать только ту часть, где внутри больше всего концентрация получается. Скорее всего такая задача даже как-то решается алгоритмически (через графы/деревья), но вот я уже ничего с этой области знаний не помню

AZANIR · 15.01.2018

есть такой себе парсер статей , Х-light когда-то его юзал , вполне неплохо контент парсил. может позаимствовать у него методы работы.

Lord_Alfred · 14.02.2018

orka13 сказал(а):
Получилось подключить порт boilerpipe (обсуждалось на форуме, но линки уже устарели) на C#: https://github.com/rasmusjp/boilerpipe.net
Результат конечно не идеален, но для начала сойдет. Правда там требует именно старую версию HtmlAgilityPack.dll за 2014 год.
Выслал заявку на конкурс статей. Надеюсь открытое решение на зенке легче будет до идеала довести.

Вот это ты молодец! А я тут AngleSharp мучаю тоже для конкурса и как раз набрел на интересные результаты прохода по нодам) Для меня это оказалось небольшим открытием, что там не нужно рекурсивно идти, а есть список нод, сложенных последовательно, соответственно это может упростить задачу из этого топика

PS: делаю не парсер контента) но близкое к этому)
PPS: если интересно будет по нодам - напиши в личку, скину пример, мб тоже пригодится

А вот сейчас понял, что всё таки ошибся судя по всему :-)

AZANIR · 14.02.2018

Lord_Alfred сказал(а):
Вот это ты молодец! А я тут AngleSharp мучаю
А вот сейчас понял, что всё таки ошибся судя по всему

что так печален этот AngleSharp

Lord_Alfred · 14.02.2018

AZANIR сказал(а):
что так печален этот AngleSharp

Почему печален? Мне вроде бы он нравится, удобно и логично. А то, что выше написал - так я сам там намудрил :-)

AZANIR · 14.02.2018

просто счас рассматриваю альтернативу HtmlAgilityPack

Lord_Alfred · 14.02.2018

AZANIR сказал(а):
просто счас рассматриваю альтернативу HtmlAgilityPack

И что скажешь? Я пока немного его поюзал, мне понравилось

ЯуттщЗщыеук · 10.01.2019

Так и к чему в итоге пришли?

udder · 05.02.2022

orka13 сказал(а):
4. Чистим регулярками лишние пробельные символы и оставляем только длинные предложения, получаем:

Пример бы такой регулярки, у меня например есть такой текст с лишними знаками пунктуации
Chlupatá kočička MILF s velkými přírodními kozami v amatérském hardcore na webové kameře... Chlupatá amatérská zrzka v koupelně. ... Zralá brunetka amatérská MILF Eva Jayne dostane její chlupatá kunda bušil. ... Další porno stránky zdarma. Chlupatá kundička MILF s velkými přírodními kozami v amatérském hardcore na webové kameře. 1 rok před 14:47 xTits hairy. Mladá kočka miluje péro. ... Chlupatá amatérská zrzka šuká v koupelně. Před 7 měsíci 06:19 Sexu chlupatá, vana, zrzka. Miláček s kulatým zadečkem Melody Cummings šuká běloch. 3 months ago 15:00 OkXXX hairy. .... Zralá brunetka amatérská MILF Eva Jayne se nechá mlátit do své chlupaté kundy. 3 months ago 06:54 AnyPorn hairy, british. Tahle kočka potřebuje, aby jí někdo vylízal její kudrnatou kundu. ... Další porno stránky zdarma.

Не знаю как чистить?

Ищу алгоритм парсинга текста статьи HTML-страницы (без меню, футеров и прочего мусора)

Client

Moderator

Client

Client

Client

Client

Moderator

Client

Client

Client

Administrator

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)