Парсинг контента групп ok.ru

Zemich

Client
Регистрация
01.03.2020
Сообщения
37
Благодарностей
9
Баллы
8
Доброго времени суток! помогите мне как новичку.
пишу шаблон парсинга топиков групп с ok и постингом их в последующем в свои группы ok.
Так вот ума не приложу как спарсить контент топика целиком. Задача заключается в том, что бы спарсить не только картинкку с текстом но видео, плейлист с музыкой и т.д.
Если я правильно понял, то ВЕСЬ текст спарсить можно только при открытии топика?
Парсить лучше через Xpath? Структура топика очень сложная как по мне. Каков порядок действий при парсинге топика. Какова структура проекта?
 

TwistDanceR

Активный пользователь
Регистрация
30.05.2019
Сообщения
479
Благодарностей
200
Баллы
43
Надо выпарсить блок топика, а потом его распарсить на данные.
Насчет того Весь ли - скорее всего да. Когда страница загружена - тогда можно парсить. Исключения составляют спойлеры, они обычно подгружаются с кодом. Их не обязательно открывать, чтобы парсить.

Xpath/css в зависимости от случая. Если классы в хтмл динамические - я бы положился на css.

По остальному - как сделаешь, так и будет.
 
  • Спасибо
Реакции: Zemich

Zemich

Client
Регистрация
01.03.2020
Сообщения
37
Благодарностей
9
Баллы
8
Надо выпарсить блок топика, а потом его распарсить на данные.
Насчет того Весь ли - скорее всего да. Когда страница загружена - тогда можно парсить. Исключения составляют спойлеры, они обычно подгружаются с кодом. Их не обязательно открывать, чтобы парсить.

Xpath/css в зависимости от случая. Если классы в хтмл динамические - я бы положился на css.

По остальному - как сделаешь, так и будет.
ЧТО Вы имеете ввиду когда говорите "выпарсить блок топика". Загнать его JSON? если можно то похожий пример.
 

TwistDanceR

Активный пользователь
Регистрация
30.05.2019
Сообщения
479
Благодарностей
200
Баллы
43
ЧТО Вы имеете ввиду когда говорите "выпарсить блок топика". Загнать его JSON? если можно то похожий пример.
Я не знаю как там всё распределено, но если , допустим, несколько топиков на странице отображается одновременно, у каждого свой див, и текст в коде отображается полностью - можно найти по совпадению первый и вырезать div содержащий только текст и инфу первого топика. JSON тут ни при чем, но если топик в нём, то и его можно и вытянуть регуляркой или Xpath и далее распарсить на данные.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)