Работа с текстом

orka13 · 31.12.2017

«те статьи которые уже были скопированы» - записывать их урл, или заголовок, или ID в отдельный файл с новой строки, или в файл-список.
При проверке новой статьи искать ее по признакам в этом файле или файл-списке. Если статьи там нет, то обрабатываем. Если есть, то пропускаем.

Sergodjan · 05.01.2018

liveCreature сказал(а):
Проблему решил не совсем.
Для своей задачи я начал парсить ссылки на первой странице. И по ссылкам переходить и парсить контент. Проект будет постоянно запущен, и получается он парсит те-же ссылки на странице.

Подскажите как задать логику чтоб не парсил ссылки в файл с странице, которые уже присутствуют в файле?
Как только новая статья опубликуется, то он её спарсит т.к. ссылка будет уникальной.

записывать в особый файл номер текущей страницы парсинга, тогда в начале выполнения можно будет брать этот номер и подставлять в урл, шаблон будет переходить всегда на актуальную страницу и выполнять парсинг с прерванного места..

Поиск

Работа с текстом

liveCreature

Пользователь

orka13

Client

liveCreature

Пользователь

liveCreature

Пользователь

liveCreature

Пользователь

Sergodjan

Administrator

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)