Защита от повторов

zennomoves · 25.02.2016

Контент какого типа парсится?

zennomoves · 25.02.2016

Automator сказал(а):
Преимущественно текстовой. Возможно, иногда текст с картинками.

В который раз надеюсь, что будет более развёрнутый ответ, чтобы было на что опереться, но увы...

То, что ты сказал не очень помогает. Интересовала структура, к которой можно привязаться. Что ж Вы так все на слова-то скупитесь?

Ладно, буду пальцем в небо тыкать. :-)

Предположу, что у тебя стандартная структура: заголовки + всё остальное под ними, и что тебе нужно спарсить эти заголовки и связанный с ними контент.

Каждый блок контента на странице, с которой происходит начальный парсинг, однозначно определяется ссылкой, связанной с заголовком. С начальной страницы тебе нужно собрать как раз эти ссылки, чтобы потом перейти по ним на полные тесты и там уже спарсить и заголовок, и тело статьи.

При парсинге этих ссылок можно верхнюю сохранить в текстовой файл, чтобы в следующий раз при парсинге ссылок сравнивать все новые ссылки с ней, и как только будет совпадение, всё остальное, включая текущее, уже не нужно. Каждый запуск ссылку в файле нужно обновлять в конце проекта на новую верхнюю. Логика понятна?

Парсится именно ссылка, а не заголовок для сравнения, потому что ссылка, по идее, всегда будет валидна, а заголовки иногда выдают косяки + разные посты могут иметь одинаковые заголовки, но разные ссылки (ветки форума)

kopc · 26.02.2016

А контент на странице повторяется или постоянно уникален? Например, добавляется новая информация, но часть старой еще не исчезла со страницы?

Не подойдет?
1. Парсить код страницы.
2. выбирать информацию регуляркуй с поиском по div и классу css, например
3. Сохранять самую верхнюю позицию в переменную
4. при обновлении страницы собирать значения со всей и начинать пасрсинг только новых позиций пропустив все позиции ниже значения из прошлой переменной.

А так вам действительно без кода страницы сложно что-то советовать будет.

Mikhail B. · 26.02.2016

Иногда может помочь удаление дублей.

kopc · 26.02.2016

Может я, конечно чего-то не понимаю, но вам лучше использовать
(?<=<a\ href=").*(?=\#comments")

Из вашего примера возвращает 1 значение
/razdel/posttitle-id

budora · 26.02.2016

domen.ru/razel/post-id А использовать привязку post-id и потом использовать либо базу постов, либо последний пост ... тут варианты в каком виде post-id

Поиск

Защита от повторов

Automator

Client

zennomoves

Client

Automator

Client

zennomoves

Client

Automator

Client

kopc

Client

Mikhail B.

Moderator

Automator

Client

kopc

Client

Automator

Client

budora

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)