все страницы сайта

zortexx · Jan 22, 2016

Парсите с входной страницы (например с домена) все ссылки в список (массив), переходите по всем ссылкам и добавляйте в список найденные на других страницах ссылки в тот же список.

Для посещенных страниц создайте отдельный список и сверяйтесь по нему - все ли ссылки посетили.

doc · Jan 22, 2016

Для посещенных страниц создайте отдельный список и сверяйтесь по нему - все ли ссылки посетили.

Можно просто удалять дубли. При условии, конечно, что дубли удаляются с конца списка, а не с начала

zortexx · Jan 22, 2016

doc said:
Можно просто удалять дубли. При условии, конечно, что дубли удаляются с конца списка, а не с начала

Не имеет смысла, поскольку порождает кучу лишних телодвижений.

doc · Jan 22, 2016

zortexx said:
Не имеет смысла, поскольку порождает кучу лишних телодвижений.

т.е. сверятся после парсинга - это не лишние телодвижения, а удалять дубли - лишние. интересно)

minsky · Jan 22, 2016

http://www.wonderwebware.com/sitemap-generator/

zortexx · Jan 22, 2016

doc said:
т.е. сверятся после парсинга - это не лишние телодвижения, а удалять дубли - лишние. интересно)

Для начала покажите ваш вариант алгоритма "с удалением дублей из конца списка".

Мой без детализации выглядит примерно так:

doc · Jan 22, 2016

Оно то на то и выходит. Парсим ссылки, добавляем в список, удаляем дубли, отрабатываем список.
Просто этот вариант будет работать только при условии, что в стандартном методе удаления дублей со списка удаление идет с конца.
Т.е. если мы имеем список "1,2,3,1" нужно, чтобы при удаление дублей остался список "1,2,3". Я никогда не вникал, как оно работает.
Такой вариант заменит одной строкой цикл проверки

Lexicon · Jan 22, 2016

Скачайте себе xenu или там Netpeak Spider быстро и просто позволят решить вопрос)

zena2015 · Jan 23, 2016

ИМХО задача обойти все страницы сайта средствами ZP часто схоже на забивание гвоздей микроскопом.

Но вроде алгоритм простой:
Чтобы не запутаться ведем несколько списков:
1- адреса спарсенные с текущей страницы
2- адреса с посещенными (читай пропарсенными) страницами
3- запланированные на парсинг

Дальше все логично и по порядку:
1 Собрали локальные адреса с текущей страницы в первый список.
2 Прошлись по первому списку перебрав адреса: взяли адрес с 1 списка, проверили на наличие его во втором списке, если есть - удаляем берем следующий, если нет - добавляем его в третий список и переходим к новой строке.
3 Закончив перебор строк первого списка, чистим от дублей третий, на случай если мы добавили туда то что там уже было.
4(0) берем (естественно с удалением) новый адрес с третьего списка, переходим по нему и добавляем этот адрес во второй список .

Кстати, очень не хватает в стандартных функциях ZP Операции над списком
такого простого пункта как "найти в списке", приходится через C#

doc · Jan 23, 2016

zena2015 said:
ИМХО задача обойти все страницы сайта средствами ZP часто схоже на забивание гвоздей микроскопом.

Но вроде алгоритм простой:
Чтобы не запутаться ведем несколько списков:
1- адреса спарсенные с текущей страницы
2- адреса с посещенными (читай пропарсенными) страницами
3- запланированные на парсинг

Дальше все логично и по порядку:
1 Собрали локальные адреса с текущей страницы в первый список.
2 Прошлись по первому списку перебрав адреса: взяли адрес с 1 списка, проверили на наличие его во втором списке, если есть - удаляем берем следующий, если нет - добавляем его в третий список и переходим к новой строке.
3 Закончив перебор строк первого списка, чистим от дублей третий, на случай если мы добавили туда то что там уже было.
4(0) берем (естественно с удалением) новый адрес с третьего списка, переходим по нему и добавляем этот адрес во второй список .

Кстати, очень не хватает в стандартных функциях ZP Операции над списком
такого простого пункта как "найти в списке", приходится через C#

это всё делается одним списком)

zortexx · Jan 23, 2016

doc said:
это всё делается одним списком)

Можете расписать как вы это собираетесь делать одним списком?
Полагаю не только ТС будет рад изучить пример реализации вашего варианта с одним списком в шаблоне.

Dimionix · Jan 23, 2016

zortexx said:
Можете расписать как вы это собираетесь делать одним списком?
Полагаю не только ТС будет рад изучить пример реализации вашего варианта с одним списком в шаблоне.

С одним списком норм вариант. Берем из списка по счетчику > парсим в этот же список > удаляем дубли > опять берем по счетчику. Как только взять будет нечего (ошибка - индекс за пределами диапазона) = профит.

doc · Jan 23, 2016

Dimionix said:
С одним списком норм вариант. Берем из списка по счетчику > парсим в этот же список > удаляем дубли > опять берем по счетчику. Как только взять будет нечего (ошибка - индекс за пределами диапазона) = профит.

именно)

zena2015 · Jan 23, 2016

Ну если дубли удаляются с конца списка, то соглашусь, что такой вариант выглядит гораздо проще. :ay:

Но на практике, все же, парсить сразу в один список не стал бы.

Search

все страницы сайта

desided

Client

zortexx

Client

doc

Client

zortexx

Client

doc

Client

minsky

Client

zortexx

Client

doc

Client

Lexicon

Client

zena2015

Client

doc

Client

zortexx

Client

Dimionix

Moderator

doc

Client

zena2015

Client

Users Who Are Viewing This Thread (Total: 1, Members: 0, Guests: 1)