Помогите идеей.

Budda

Client
Регистрация
13.07.2015
Сообщения
247
Благодарностей
41
Баллы
28
Моя задача спарсить описание и характеристики товаров с интернет-магазина.
Изначально думал собрать все в единую эксель таблицу, но это глупая затея так как в описании присутствуют абзацы, да и характеристики сделаны двумя столбиками.

Подскажите, как лучше организовать данные так, что бы впоследствии ими можно было удобно воспользоваться?

Может для каждого товара создать свой id?
 

Roman*

Client
Регистрация
25.09.2013
Сообщения
1 651
Благодарностей
655
Баллы
113
Моя задача спарсить описание и характеристики товаров с интернет-магазина.
Изначально думал собрать все в единую эксель таблицу, но это глупая затея так как в описании присутствуют абзацы, да и характеристики сделаны двумя столбиками.

Подскажите, как лучше организовать данные так, что бы впоследствии ими можно было удобно воспользоваться?

Может для каждого товара создать свой id?
Может выпаршивать с тегами текст, будет сразу с абзацами и класть в csv.
 
  • Спасибо
Реакции: Budda

Budda

Client
Регистрация
13.07.2015
Сообщения
247
Благодарностей
41
Баллы
28
Может выпаршивать с тегами текст, будет сразу с абзацами и класть в csv.
Тоесть брать innerhtml? Но он ведь все равно идет не одной строкой. Не получится чтобы было "одна строка в таблице - один товар". И как быть?)
Я просто не пойму как организовать файлы.
 

Roman*

Client
Регистрация
25.09.2013
Сообщения
1 651
Благодарностей
655
Баллы
113
Ты пример выложи страницы с товаром, от него не убудет, сразу будет видно как лучше парсить.
 
  • Спасибо
Реакции: Budda

amyboose

Client
Регистрация
21.04.2016
Сообщения
2 312
Благодарностей
1 191
Баллы
113
Собирай параметры вместе с характеристиками и пихай в список через разделители в одну строку. Я бы создал разделить типа |++(переменная)++| а потом увеличивал счет этой переменной. А для таких вещей как название, цена и т.д. я бы сделал отдельные разделители, так как эти параметры есть у всех товаров.
Потом новая строка и всё по тому же принципу, а извлечение организовать тоже не сложно, так как у тебя всё записано построчно, одинаковые для всех параметры записаны в одинаковых разделителях, а остальные параметры у тебя записаны уже в разделители |++(переменная)++| и их количество тоже не сложно посчитать.
 
  • Спасибо
Реакции: Budda

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 493
Благодарностей
8 697
Баллы
113
Тоесть брать innerhtml? Но он ведь все равно идет не одной строкой. Не получится чтобы было "одна строка в таблице - один товар". И как быть?)
Я просто не пойму как организовать файлы.
переводы строк убирать, вытягивать в одну строку..
 
  • Спасибо
Реакции: Budda

Budda

Client
Регистрация
13.07.2015
Сообщения
247
Благодарностей
41
Баллы
28
Справился! Спасибо всем)
Почистил от тегов, объединил элементы в список и записал в ячейку. Выглядит так как и хотел!
Код:
" Производитель++Элпром
Страна производитель++Болгария
Питание++Сеть 220В
Длина шины++405.0 (мм)
Шаг цепи++3/8""
Объем масляного бака++200.0 (мл)
Вес++5.8 (кг)
Потребляемая мощность++2400.0 (Вт)
Максимальное количество оборотов++800 м/мин
Тип масляного насоса++автоматический поток масла
Уровень масла для смазки цепи++есть
Охлаждение электропилы++воздушное "
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)