Правильный парсинг

strannic

Client
Регистрация
05.12.2010
Сообщения
224
Благодарностей
10
Баллы
18
Подскажите как правильнее парсить сайт-каталог и складывать спаршенную информацию в csv файл?

К примеру (это только пример, мне не нужно парсить imdb) есть у нас такая страница, http://www.imdb.com/movies-in-theaters/?ref_=nv_mv_inth_1
Нужно парсить, к примеру - название фильма, категорию и продолжительность.

Как я себе представляю, это
Создаю регулярку на парсинг всех титлов, регулярку на парсинг всех категорий, и парсинг всех значений продолжительности. Потом как-то совмещаю их для каждого фильма свои значения, и уже потом сохраняю результат в csv вида
"название фильма1","категория1","продолжительность1"
"название фильма2","категория2","продолжительность2"
"название фильма3","категория3","продолжительность3"

Но что-то мне подсказывает что это не лучшее решение, направьте на путь истинный! )
 
Последнее редактирование:

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
891
Баллы
113
Да нет почему, вполне нормальное решение
 

strannic

Client
Регистрация
05.12.2010
Сообщения
224
Благодарностей
10
Баллы
18
сам нашел вариант получше, сначало парсим блоки, а потом каждый блок распаршиваем на составляющие и уже кладем в нашу базу. Так выйдет безопаснее от потери данных и случайного несоотвествия.

Такое же решени нашел чуть позже вот здесь
http://zennolab.com/discussion/threads/pomogite-s-parsingom-sajta-v-2-podxoda.17919/
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)