Глубокий парсинг ссылок со всего сайта

doc · 05.01.2017

есть статья в 6м конкурсе

doc · 05.01.2017

http://zennolab.com/discussion/threads/kak-legko-i-krasivo-sobrat-kartu-sajta.33700/

doc · 05.01.2017

лям ссылок таким методом нереально. на это нужны будут недели минимум

amyboose · 06.01.2017

doc сказал(а):
лям ссылок таким методом нереально. на это нужны будут недели минимум

Если post/get реализация, то лям можно прогнать за пару часиков, если сайт не упадет от 300+ потоков.

doc · 06.01.2017

amyboose сказал(а):
Если post/get реализация, то лям можно прогнать за пару часиков, если сайт не упадет от 300+ потоков.

а если не пост гет, а как реализовано в статье, на которую я дал ссылку, то будет ровно так, я как написал.

doc · 06.01.2017

z@jivalo сказал(а):
Да действительно вы правы, по поводу скорости я сейчас сайт решил протестить на вашем шаблоне там всего 100 ссылок очень долго делает
а если в 1 млн то это страшно представить как долго.
Я заметил что происходит запрос в браузер из переменной в которой находится url сайта, а если убрать такую логику быстрее будет?

это не мой шаблон)
что касается скорости, с использованием браузера медленно будет в любом раскладе. Нужны запросы. Возможно, товарищ amyboose поможет с написанием шаблона, не зря же он тут отписался. Но это не просто проект и бесплатным он не будет

amyboose · 06.01.2017

doc сказал(а):
это не мой шаблон)
что касается скорости, с использованием браузера медленно будет в любом раскладе. Нужны запросы. Возможно, товарищ amyboose поможет с написанием шаблона, не зря же он тут отписался. Но это не просто проект и бесплатным он не будет

Нет, я с этим не помогу, так как у меня есть чел, с которым, я надеюсь, будем долго ещё работать по одному проекту

doc · 06.01.2017

amyboose сказал(а):
Нет, я с этим не помогу, так как у меня есть чел, с которым, я надеюсь, будем долго ещё работать по одному проекту

очень важная информация, спасибо)

amyboose · 06.01.2017

doc сказал(а):
очень важная информация, спасибо)

обращайся ещё, у меня такой инфы дохера

Lexicon · 09.01.2017

Собрать список ссылок без сохранения графа довольно просто, правда все равно будет работать довольно долго и лучше использовать что то многопоточное или асинхронное но алгоритм простой
у вас должно быть всего 2 списка
1 найденные ссылки
2 ссылки, на которые робот заходил
вы отправляете бота на морду и он собирает все ссылки в 1 список
потом берет из списка 1 первую ссылку и смотрит, есть ли она в списке 2, если нет - заходит на страницу и собирает оттуда все ссылки, потом проверяет есть ли эти ссылки в списке 1. Если ссылка есть то просто пропускает, если нет то добавляет в список 1 ссылку. Потом та страница, где вы были должна быть добавлена в список 2

Дальше вы берете ссылку из списка 1 снова. Если она есть в списке 2 то пропускаете её и берете следующую и так далее.

тут будет два основных подводных камня - внешние ссылки и косяки cms которые будут вам генерировать уникальные адреса с атрибутами типа site.ru/catalog?page=1&page=1&page=1................&page=1 ну или дополнительные сортировки, которые генерируют новые страницы по урлам но не по контенту. Тут надо или вводить обрезку по глубине, или сравнивать между собой хеши страниц, если это возможно на распарсиваемом сайте.

doc · 09.01.2017

Lexicon сказал(а):
Собрать список ссылок без сохранения графа довольно просто, правда все равно будет работать довольно долго и лучше использовать что то многопоточное или асинхронное но алгоритм простой
у вас должно быть всего 2 списка
1 найденные ссылки
2 ссылки, на которые робот заходил
вы отправляете бота на морду и он собирает все ссылки в 1 список
потом берет из списка 1 первую ссылку и смотрит, есть ли она в списке 2, если нет - заходит на страницу и собирает оттуда все ссылки, потом проверяет есть ли эти ссылки в списке 1. Если ссылка есть то просто пропускает, если нет то добавляет в список 1 ссылку. Потом та страница, где вы были должна быть добавлена в список 2

Дальше вы берете ссылку из списка 1 снова. Если она есть в списке 2 то пропускаете её и берете следующую и так далее.

тут будет два основных подводных камня - внешние ссылки и косяки cms которые будут вам генерировать уникальные адреса с атрибутами типа site.ru/catalog?page=1&page=1&page=1................&page=1 ну или дополнительные сортировки, которые генерируют новые страницы по урлам но не по контенту. Тут надо или вводить обрезку по глубине, или сравнивать между собой хеши страниц, если это возможно на распарсиваемом сайте.

достаточно 1го списка

doc · 09.01.2017

z@jivalo сказал(а):
Поясните пожалуйста почему 1 достаточно?

Берется стартовая, например индексная. Добавляется в список. А теперь в цикле берется 1я строка из этого списка. Переход. Парсятся все ссылки и добавляются в этот же список. Удаляются дубли. Берется 2я ссылка...
И так пока не будет ошибки, когда попытаешься взять N-ю строку

Lexicon · 10.01.2017

doc сказал(а):
Берется стартовая, например индексная. Добавляется в список. А теперь в цикле берется 1я строка из этого списка. Переход. Парсятся все ссылки и добавляются в этот же список. Удаляются дубли. Берется 2я ссылка...
И так пока не будет ошибки, когда попытаешься взять N-ю строку

Не взлетит. После удаления дублей нет гарантий того, что сортировка не изменится

doc · 10.01.2017

Lexicon сказал(а):
Не взлетит. После удаления дублей нет гарантий того, что сортировка не изменится

это какой должен быть алгоритм у удаления, чтобы сортировка поменялась?)

Lexicon · 16.01.2017

а вы знаете как работает тот что встроен в зенку? если есть 2 значения в середине и в конце списка какое из них удалится?

doc · 16.01.2017

Lexicon сказал(а):
а вы знаете как работает тот что встроен в зенку? если есть 2 значения в середине и в конце списка какое из них удалится?

знаю. останется тот, что выше

Dimionix · 16.01.2017

doc сказал(а):
знаю. останется тот, что выше

Именно!
Когда ручками что-то делаю, не редко таким образом удаляю строки, типа как по блэкЛисту. Т.е. в начале идут строки блэкЛиста, затем какой-нибудь разделитель и после него строки, в которых будет чистка, запускаю экшен "Удалить дубли" => после разделителя остаются нужные строки.
А вот Notepad++ с плагином TextFX, при удалении дублей, строки сортирует, что не есть Гуд.

Lexicon · 17.01.2017

doc сказал(а):
знаю. останется тот, что выше

Ну тогда можно и одним списком обойтись) Но я тот еще очкодав, так что лучше буду по старинке)

Глубокий парсинг ссылок со всего сайта

Client

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Moderator

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)