Работа с текстом

liveCreature

Пользователь
Регистрация
22.01.2017
Сообщения
87
Благодарностей
10
Баллы
8
Здравствуйте. Суть работы программы понял.
Каким образом нужно указать программе что-бы не копировала те статьи которые уже были скопированы. Только начинаю разбираться, знаю что закодить такое легко, а вод инструментами программы?

Возможно есть фак или мануал на эту тему. Интересует именно логика работы: Зашёл на страницу, скопировал новость 1, скопировал новость 2 и т.д.
 
Последнее редактирование:

orka13

Client
Регистрация
07.05.2015
Сообщения
2 167
Благодарностей
2 169
Баллы
113
«те статьи которые уже были скопированы» - записывать их урл, или заголовок, или ID в отдельный файл с новой строки, или в файл-список.
При проверке новой статьи искать ее по признакам в этом файле или файл-списке. Если статьи там нет, то обрабатываем. Если есть, то пропускаем.
 
  • Спасибо
Реакции: liveCreature

liveCreature

Пользователь
Регистрация
22.01.2017
Сообщения
87
Благодарностей
10
Баллы
8
«те статьи которые уже были скопированы» - записывать их урл, или заголовок, или ID в отдельный файл с новой строки, или в файл-список.
При проверке новой статьи искать ее по признакам в этом файле или файл-списке. Если статьи там нет, то обрабатываем. Если есть, то пропускаем.
Всё ясно и понятно, спасибо.
 

liveCreature

Пользователь
Регистрация
22.01.2017
Сообщения
87
Благодарностей
10
Баллы
8
«те статьи которые уже были скопированы» - записывать их урл, или заголовок, или ID в отдельный файл с новой строки, или в файл-список.
При проверке новой статьи искать ее по признакам в этом файле или файл-списке. Если статьи там нет, то обрабатываем. Если есть, то пропускаем.
А какими инструментами это лучше делать? Через конструктор действий не могу найти юрл.
Возможно есть мини гайт. Логику понял, а собрать задание не могу :(
 

liveCreature

Пользователь
Регистрация
22.01.2017
Сообщения
87
Благодарностей
10
Баллы
8
Проблему решил не совсем.
Для своей задачи я начал парсить ссылки на первой странице. И по ссылкам переходить и парсить контент. Проект будет постоянно запущен, и получается он парсит те-же ссылки на странице.

Подскажите как задать логику чтоб не парсил ссылки в файл с странице, которые уже присутствуют в файле?
Как только новая статья опубликуется, то он её спарсит т.к. ссылка будет уникальной.
 
Последнее редактирование:

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 515
Благодарностей
8 703
Баллы
113
Проблему решил не совсем.
Для своей задачи я начал парсить ссылки на первой странице. И по ссылкам переходить и парсить контент. Проект будет постоянно запущен, и получается он парсит те-же ссылки на странице.

Подскажите как задать логику чтоб не парсил ссылки в файл с странице, которые уже присутствуют в файле?
Как только новая статья опубликуется, то он её спарсит т.к. ссылка будет уникальной.
записывать в особый файл номер текущей страницы парсинга, тогда в начале выполнения можно будет брать этот номер и подставлять в урл, шаблон будет переходить всегда на актуальную страницу и выполнять парсинг с прерванного места..
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)