Парсинг стены паблика в vk.com

inshallakh

Client
Регистрация
18.05.2015
Сообщения
57
Благодарностей
0
Баллы
6
Только начинаю знакомство с Зеннопостер, освоил самые базовые вещи, теперь пробую написать парсер контента из паблика вконтакте. Возник: как правильно написать регулярку, чтобы отсечь лишний код? У меня при парсинге получается вот такое:
wall_post_text">текст поста.*</div>
wall_post_text">текст поста.*</div>
wall_post_text">текст поста.*</div>
 

VladZen

Administrator
Команда форума
Регистрация
05.11.2014
Сообщения
22 251
Благодарностей
5 849
Баллы
113
В конструкторе регулярных выражений указать:
wall_post_text"> - что перед текстом
*</div> - что после текста
 
  • Спасибо
Реакции: inshallakh

inshallakh

Client
Регистрация
18.05.2015
Сообщения
57
Благодарностей
0
Баллы
6
Спасибо за подсказку!

Еще вопрос. Нужно очистить спарсенный текст от HTML-кода:

Его много разного:

<br style="display: none;"><a style="display: none;" class="wall_post_more" onclick="hide(this, domPS(this)); show(domNS(this));">Expand text..</a><span style="">

<a class="wall_post_more" onclick="hide(this, domPS(this)); show(domNS(this));">Expand text..</a><span style="display: none"></a>

<br>

</div>


Можно ли одним экшеном очистить текст от всего этого? Чтобы не плодить вот такое количество замен:
http://take.ms/bw9Ye

И еще не совсем понятно, как организовать пропуск постов с картинкаи.
 

VladZen

Administrator
Команда форума
Регистрация
05.11.2014
Сообщения
22 251
Благодарностей
5 849
Баллы
113
Замена: Что: <.*?> На: пусто (тип Regex) . Тогда одним экшном все очистите.

Но вообще можно брать сразу только текст с веб-страницы без html-кода - Действие>Табы>Данные - Что взять>Текст.
 
Последнее редактирование модератором:
  • Спасибо
Реакции: Zoloo

inshallakh

Client
Регистрация
18.05.2015
Сообщения
57
Благодарностей
0
Баллы
6
Попробовал вашим способом. Действительно, сразу спарсился текст. Но это не решает проблему, замен все равно придется делать много, причем, наверное, по более сложным правилам. В тексте полно вот такого:

- название паблика перед каждым постом
- номера постов
- рекламные посты
- время ("42 minutes ago", "today at 12:25 am")
- много пустых пробелов и строк
 

inshallakh

Client
Регистрация
18.05.2015
Сообщения
57
Благодарностей
0
Баллы
6
Наверное самый простой способ избавиться от лишнего - удалить весь текст, который не подпадает под шаблон:
<название паблика> <пост>

пример:
"World of History «Полосатый рейс» — фильм, конечно, веселый, но был на съемках и очень мрачный эпизод, связанный со смертью льва Васи."

Подскажите, как это сделать? :-)
 

inshallakh

Client
Регистрация
18.05.2015
Сообщения
57
Благодарностей
0
Баллы
6
Уже сообразил, можно не отвечать:-)
 

inshallakh

Client
Регистрация
18.05.2015
Сообщения
57
Благодарностей
0
Баллы
6
Сообразил-то сообразил, но одна проблема осталась. Пытаюсь вычистить "Expand text..": http://take.ms/WYRqN
Проект успешно срабатывает, но "Expand" почему-то не вычищается
 

VladZen

Administrator
Команда форума
Регистрация
05.11.2014
Сообщения
22 251
Благодарностей
5 849
Баллы
113

budora

Client
Регистрация
13.08.2012
Сообщения
831
Благодарностей
554
Баллы
93
Сообразил-то сообразил, но одна проблема осталась. Пытаюсь вычистить "Expand text..": http://take.ms/WYRqN
Проект успешно срабатывает, но "Expand" почему-то не вычищается
Может проще и быстрее будет использовать VK API. К примеру метод wall.get.xml
Вот вам для примера http://api.vk.com/method/wall.get.xml?domain=b2band Чистить ничего не надо и есть возможность задать критерии по дате и популярности.
 

inshallakh

Client
Регистрация
18.05.2015
Сообщения
57
Благодарностей
0
Баллы
6
Через апи тоже пролезает код (<br><br>)...
А как через Апи заполучит полный список постов?
 

budora

Client
Регистрация
13.08.2012
Сообщения
831
Благодарностей
554
Баллы
93

familygroupe

Новичок
Регистрация
24.01.2017
Сообщения
5
Благодарностей
0
Баллы
1
Подскажите, а как сохранить результат апи запроса в текстовый файл без ссылок и прочего мусора?
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)