Парсер категорий товаров

skif1965

Client
Регистрация
03.11.2016
Сообщения
111
Благодарностей
0
Баллы
16
Здравствуйте.
Подскажите пожалуйста, как спарсить структуру категорий товаров магазина, когда огромное количество категорий, категорий второго, третьего уровня? Как их складывать чтоб не запутаться.
 

Nord

Client
Регистрация
22.03.2012
Сообщения
2 375
Благодарностей
1 436
Баллы
113
Заходить поочередно в каждую категорию и парсить подкатегории в список. Потом заходить в них и тд. Циклы.
Либо искать лазейку. Они почти всегда есть
 

Solus

Client
Регистрация
14.04.2014
Сообщения
378
Благодарностей
119
Баллы
43
Неизвестно о каком сайте идет речь. Возможно там есть страница карта сайта (sitemap или нечто подобное), обычно на таких страницах можно спарсить всё по блокам а далее уже разобрать на составные части.
 

skif1965

Client
Регистрация
03.11.2016
Сообщения
111
Благодарностей
0
Баллы
16

kapelan28

Client
Регистрация
22.09.2015
Сообщения
469
Благодарностей
185
Баллы
43
Вот сайт www.afalinaural.ru за что можно зацепиться.
Вот карта сайта
Код:
http://www.afalinaural.ru/sitemap.xml
Можете через GET-запрос получить содержимое и собрать все ссылки, а потом регуляркой заменить основную часть домена на актуальный адрес сайта (первый раз вижу, чтобы в карте сайта стояли ссылки неактуальные, видать переехали на новый домен). Но что самое трудное - все ссылки второго уровня идут. Зайдите в любую подкатегорию, а ссылка не покажет принадлежность к категории.
 

kapelan28

Client
Регистрация
22.09.2015
Сообщения
469
Благодарностей
185
Баллы
43
как вариант, можно сначала собрать ссылки, относящиеся к <div class="catalog">, а потом каждую из ссылок отдельно пройти на подкатегории и все это отдельно записывать.
 

skif1965

Client
Регистрация
03.11.2016
Сообщения
111
Благодарностей
0
Баллы
16
Пробовал парсить сначала ссылки второго уровня, теряюсь, слишком много, потом не могу концов найти.
 

skif1965

Client
Регистрация
03.11.2016
Сообщения
111
Благодарностей
0
Баллы
16
Получилось выдернуть ссылки второго уровня такого типа
<li><a href="http://www.afalinaural.ru/betonosmesiteli.html">Бетоносмесители</a></li>
как вырезать ссылку?
 

Solus

Client
Регистрация
14.04.2014
Сообщения
378
Благодарностей
119
Баллы
43
Так вот же у вас на этой странице afalinaural.ru/site-map.html в её коде, разметка просто сказка для парсера, соберите блоки а потом разберёте их на составные части.
 

Вложения

skif1965

Client
Регистрация
03.11.2016
Сообщения
111
Благодарностей
0
Баллы
16
Спасибо но для меня это темный лес.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)