Правильный парсинг

S

strannic

Client

07.02.2015

#1

Подскажите как правильнее парсить сайт-каталог и складывать спаршенную информацию в csv файл?

К примеру (это только пример, мне не нужно парсить imdb) есть у нас такая страница, http://www.imdb.com/movies-in-theaters/?ref_=nv_mv_inth_1
Нужно парсить, к примеру - название фильма, категорию и продолжительность.

Как я себе представляю, это
Создаю регулярку на парсинг всех титлов, регулярку на парсинг всех категорий, и парсинг всех значений продолжительности. Потом как-то совмещаю их для каждого фильма свои значения, и уже потом сохраняю результат в csv вида
"название фильма1","категория1","продолжительность1"
"название фильма2","категория2","продолжительность2"
"название фильма3","категория3","продолжительность3"

Но что-то мне подсказывает что это не лучшее решение, направьте на путь истинный! )

Последнее редактирование: 07.02.2015

Lexicon

Client

08.02.2015

#2

Да нет почему, вполне нормальное решение

S

strannic

Client

09.02.2015

#3

сам нашел вариант получше, сначало парсим блоки, а потом каждый блок распаршиваем на составляющие и уже кладем в нашу базу. Так выйдет безопаснее от потери данных и случайного несоотвествия.

Такое же решени нашел чуть позже вот здесь
http://zennolab.com/discussion/threads/pomogite-s-parsingom-sajta-v-2-podxoda.17919/

Поиск

Правильный парсинг

strannic

Client

Lexicon

Client

strannic

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)