Написать сниппет универсального парсера статей

VerBin · 16.07.2019

В данном случае УНИВЕРСАЛЬНО означает сбор данных с ошибками.
Где-то лишнее спарсит, где-то наоборот недопарсит в статье.
Не представляю как можно универсально без ошибок отделить содержимое статьи от остальной части сайта.
Если не универсально, и с последующим допилом, то можно реализовать.

fri-lancer · 16.07.2019

Если не обязательно на зенке, то http://x-parser.ru/software/1-x-parser-light.html

zortexx · 16.07.2019

Полагаю, что только вариант с последующим допилом, как предложил @VerBin.
Если только бюджет ТС не полтора миллиона евро.
https://cordis.europa.eu/project/rcn/206936/factsheet/en

Люди по универсальным парсерам докторские защищают :-)

))

orka13 · 16.07.2019

На форуме подобное обсуждалось:
Ищу алгоритм парсинга текста статьи HTML-страницы (без меню, футеров и прочего мусора)
там в итоге идеального варианта я так и не нашел. Если верстка разная, то проще через сервисы или платные библиотеки парсить на запросах тело статьи чем самому алгоритм составлять.

VerBin · 17.07.2019

тут по сути можно парсить в базу все. а затем уже из базы соскабливать по определенному алгоритму. вся загвостка в алгоритме.

ssXXXss · 17.07.2019

да давайте за лям рублями напишем, распределим вёрстки на человек 10

VerBin · 17.07.2019

ssXXXss сказал(а):
да давайте за лям рублями напишем, распределим вёрстки на человек 10

Поддерживаю идею стартапа :-)

zortexx · 17.07.2019

Завернем в ИНС и продадим как Native Language Processing :-)

Lord_Alfred · 17.07.2019

По сути идеи - юзать уже готовые разработки, пускай даже и опенсорсные на php/python/c#/etc. Объединить их в систему и написать алгоритм, который будет выбирать лучший результат парсинга из всех, что выйдут.

Поиск

Написать сниппет универсального парсера статей

toxass

Client

VerBin

Client

toxass

Client

fri-lancer

Client

zortexx

Client

orka13

Client

toxass

Client

VerBin

Client

ssXXXss

Client

VerBin

Client

zortexx

Client

toxass

Client

Lord_Alfred

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)