Парсинг страниц с виджетами вк.

Gatsby_Hr

Client
Регистрация
26.02.2015
Сообщения
44
Благодарностей
2
Баллы
8
Добрый вечер!

Уважаемые пользователи!

Собственно есть такой вопрос.

Мне требуется спарсить все страницы с сайта, на которых стоит виджет комментов вк.

Допустим, у нас есть сайт http://multad.ru/

У него тысячи страниц, на которых стоит виджет комментов.
Например:
1) http://multad.ru/page/01-exit-9b
2) http://multad.ru/page/02-starter-pack
и тд.

Как можно спарсить все страницы данного сайта на которых виджеты комментов вк есть?

Есть подозрения, что через код страницы и регулярные выражения это можно как-то реализовать.. Но не знаю как перебирать страницы и переходить от одной к другой...и тд.

Подскажите, пожалуйста, решение. У кого какие мысли?

Опыт у меня небольшой. На уровне регера почт и кривого парсера яндекса))
 

blackeye

Client
Регистрация
28.12.2012
Сообщения
197
Благодарностей
119
Баллы
43
1. тут http://multad.ru/sitemap.xml все ссылки можно собрать такой регуляркой (?<=<loc>).*?(?=</loc>) и положить в список
2. переходить по каждой и искать в исходном коде страницы признак ВК виджета, например такой регуляркой <div\ class="wcomments_page"\ id="wcomments_page">.*
3. там где он есть складывать в выходной список

это в общем ход работы, начинай делать, если что задавай вопросы
 
Последнее редактирование:
  • Спасибо
Реакции: Gatsby_Hr

Gatsby_Hr

Client
Регистрация
26.02.2015
Сообщения
44
Благодарностей
2
Баллы
8
1. тут http://multad.ru/sitemap.xml все ссылки можно собрать такой регуляркой (?<=<loc>).*?(?=</loc>) и положить в список
2. переходить по каждой и искать в исходном коде страницы признак ВК виджета, например такой регуляркой <div\ class="wcomments_page"\ id="wcomments_page">.*
3. там где он есть складывать в выходной список

это в общем ход работы, начинай делать, если что задавай вопросы
Благодарю! :bt:

sitemap.xml - это как раз то недостающее звено! Столько раз было на слуху, а я даже ни разу не удосужился о нем раньше узнать )))

Дальше, думаю, уже разберусь! Ещё раз спасибо! :-)
 

Nick

Client
Регистрация
22.07.2014
Сообщения
1 963
Благодарностей
796
Баллы
113
Ничего себе! А зачем они абсолютно все страницы там перечислили? Я думал, в таком файле перечисляют несколько самых важных разделов сайта, чтобы они в поисковой выдаче красивым меню выводились...
А я по старинке ещё делаю в гугле запрос а-ля site:multad.ru и поисковую фразу делаю, чтобы все страницы с виджетом, отобразились, а потом граблю выдачу гугла
 
  • Спасибо
Реакции: Gatsby_Hr

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 223
Баллы
113
Как вариант можно отсканировать сайт. Делаем GET запрос на главную страницу, парсим оттуда ссылки, удаляем дубли, складываем в промежуточный и в результирующий списки. Берем элемент из промежуточного списка с удалением и получаем из него список ссылок, пополняя промежуточный и результирующий списки. Как только все ссылки в промежуточном списке закончатся останется только почистить от дублей результирующий список.
 
  • Спасибо
Реакции: Gatsby_Hr

Gatsby_Hr

Client
Регистрация
26.02.2015
Сообщения
44
Благодарностей
2
Баллы
8
Как вариант можно отсканировать сайт. Делаем GET запрос на главную страницу, парсим оттуда ссылки, удаляем дубли, складываем в промежуточный и в результирующий списки. Берем элемент из промежуточного списка с удалением и получаем из него список ссылок, пополняя промежуточный и результирующий списки. Как только все ссылки в промежуточном списке закончатся останется только почистить от дублей результирующий список.
Этот вариант вроде как быстрее должен все выполнить, правда для моего уровня пока сложный в реализации))

Ничего себе! А зачем они абсолютно все страницы там перечислили? Я думал, в таком файле перечисляют несколько самых важных разделов сайта, чтобы они в поисковой выдаче красивым меню выводились...
А я по старинке ещё делаю в гугле запрос а-ля site:multad.ru и поисковую фразу делаю, чтобы все страницы с виджетом, отобразились, а потом граблю выдачу гугла
Отписал в личку))
 

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 223
Баллы
113

mysambir

Client
Регистрация
15.12.2014
Сообщения
32
Благодарностей
4
Баллы
8
Добрый вечер!

Уважаемые пользователи!

Собственно есть такой вопрос.

Мне требуется спарсить все страницы с сайта, на которых стоит виджет комментов вк.

Допустим, у нас есть сайт http://multad.ru/

У него тысячи страниц, на которых стоит виджет комментов.
Например:
1) http://multad.ru/page/01-exit-9b
2) http://multad.ru/page/02-starter-pack
и тд.

Как можно спарсить все страницы данного сайта на которых виджеты комментов вк есть?

Есть подозрения, что через код страницы и регулярные выражения это можно как-то реализовать.. Но не знаю как перебирать страницы и переходить от одной к другой...и тд.

Подскажите, пожалуйста, решение. У кого какие мысли?

Опыт у меня небольшой. На уровне регера почт и кривого парсера яндекса))
Написал шаблон под твои нужды. Если ещё нужен - стукни в личку.

Описание:
- многопоточный
- входные данные - список сайтов, которые нужно разшарить на наличие виджета
- сохраняет все найденные валидные ссылки в файл
 
  • Спасибо
Реакции: Gatsby_Hr

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)