Парсер статей - формат txt

focus7899

Client
Регистрация
14.10.2021
Сообщения
9
Благодарностей
0
Баллы
1
Добрый день! Есть необходимость в парсинге статей с новостных сайтов по ссылке, требуется результат на выходе только текст в формате txt, сам файл с названием заголовка - без фото, видео и внутренних ссылок. Спасибо огроменное, если это - хоть кто-нибудь знающий прочитает!!!:bn:
 

Вложения

soprano

Client
Регистрация
25.08.2011
Сообщения
796
Благодарностей
839
Баллы
93
В одном из конкурсов я выкладывал шаблон, где парсятся статьи с новостных сайтов для создания видео, как раз в формате txt.
Меняй только источник и XPath.
 
  • Спасибо
Реакции: focus7899

backoff

Client
Регистрация
20.04.2015
Сообщения
5 914
Благодарностей
6 381
Баллы
113

focus7899

Client
Регистрация
14.10.2021
Сообщения
9
Благодарностей
0
Баллы
1
В одном из конкурсов я выкладывал шаблон, где парсятся статьи с новостных сайтов для создания видео, как раз в формате txt.
Меняй только источник и XPath.
Благодарю за Совет!
 

ffeniks

Client
Регистрация
03.06.2016
Сообщения
308
Благодарностей
410
Баллы
63
В одном из конкурсов я выкладывал шаблон, где парсятся статьи с новостных сайтов для создания видео, как раз в формате txt.
Меняй только источник и XPath.
Как-то сталкивался с подобной задачей, с первого набега в новостных статьях было очень много мусора (фреймы, реклама, отзывы, комментарии, лишние html/js код и другое)...
Потом увидел один вариант решения, но так и не добрался до реализации, так как сменились приоритеты.

Вопрос - в вашем решении чистый контент на выходе? ( как пример сайт рбк любой раздел https://sportrbc.ru/news/61d342549a794733f45fa7eb?ruid=UET9B2G2Kao2UxDMBCDiAg== ) . На тот момент за решение предлагали около 4млн руб. Но решение должно было быть чистым и универсальным (там работы было примерно на год командой)
 

soprano

Client
Регистрация
25.08.2011
Сообщения
796
Благодарностей
839
Баллы
93
Вопрос - в вашем решении чистый контент на выходе? ( как пример сайт рбк любой раздел https://sportrbc.ru/news/61d342549a794733f45fa7eb?ruid=UET9B2G2Kao2UxDMBCDiAg== ) . На тот момент за решение предлагали около 4млн руб. Но решение должно было быть чистым и универсальным (там работы было примерно на год командой)
Чистый текст, конечно.
Он же в дальнейшем для озвучки видео используется, по-другому нельзя.
С rbc.ru не вижу больших проблем получения информации.
 

ffeniks

Client
Регистрация
03.06.2016
Сообщения
308
Благодарностей
410
Баллы
63
Чистый текст, конечно.
Он же в дальнейшем для озвучки видео используется, по-другому нельзя.
С rbc.ru не вижу больших проблем получения информации.

Нюансы
"-заходит на указанный сайт, парсит заголовок и часть текста новости "
"Шаблон можно легко переделать на парсинг любого ресурса с однообразной структурой статей- новости, рецепты, анекдоты, фильмы, интернет-магазины и т.д. "


Как будет время посмотрю, спасибо за шаб.
 

soprano

Client
Регистрация
25.08.2011
Сообщения
796
Благодарностей
839
Баллы
93

Нюансы
"-заходит на указанный сайт, парсит заголовок и часть текста новости "
"Шаблон можно легко переделать на парсинг любого ресурса с однообразной структурой статей- новости, рецепты, анекдоты, фильмы, интернет-магазины и т.д. "

Как будет время посмотрю, спасибо за шаб.
Нет проблемы и полную новость спарсить.
Структура статей везде однообразна.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)