Как получить/Спарсить все внешние ссылки с сайта

Nixens

Client
Регистрация
18.02.2018
Сообщения
283
Благодарностей
7
Баллы
18
Как получить/Спарсить все внешние ссылки с сайта.
Понимаю что для начала нужно получить все страницы самого сайта, но не знаю как ходить по всем страницам, и в какой момент нужно остановиться.
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 485
Благодарностей
8 692
Баллы
113
Как получить/Спарсить все внешние ссылки с сайта.
Понимаю что для начала нужно получить все страницы самого сайта, но не знаю как ходить по всем страницам, и в какой момент нужно остановиться.
Возможно, у сайта есть Сайтмап, можно его скачать и распарсить.
 

Nixens

Client
Регистрация
18.02.2018
Сообщения
283
Благодарностей
7
Баллы
18

one

Client
Регистрация
22.09.2015
Сообщения
6 793
Благодарностей
1 264
Баллы
113
Есть какой-нибудь "паук" на форуме?
Что то было и помоему в конкурсных статьях тоэже пороскакивало решение. Мысль была следующая. Получаем код страницы, из него регулярками выдираем внутренние ссылки, кладем в базу и так пока не пройдем все что собираем.

из него регулярками выдираем внутренние ссылки
Внешние по моему было проще выдрать и одткинуть т.к. внутренние могут быть как относительными так и абсолютными.
 
  • Спасибо
Реакции: Nixens

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 485
Благодарностей
8 692
Баллы
113
А если на сайт нет сайтмап? Есть какой-нибудь "паук" на форуме?
Да, как уж сказано было выше, было что то на форуме на эту тему.
Вот тут есть несколько сервисов, которые можно использовать для сбора страниц сайта.
И вот тут есть конкурсный готовый генератор сайтмапа для Зеннопостера.
А уже из собранных ссылок удалять ссылки с этим же доменом, оставляя тем самым только внешние.
 
Последнее редактирование:
  • Спасибо
Реакции: Nixens

one

Client
Регистрация
22.09.2015
Сообщения
6 793
Благодарностей
1 264
Баллы
113
Я бы воспользовался готовым решением, если тупо внешние ссылки надо. SEO FROG или как то так называется, есть еще фришная утилита но запамятовал.
 
  • Спасибо
Реакции: Nixens

uuw

Client
Регистрация
04.06.2020
Сообщения
146
Благодарностей
54
Баллы
28
В a-parsere из коробки есть с кучей настроек под тюнинг
Если целевой конкретный сайт можно и из js ссылки подтягивать - слегка подкрутив (все с примерами)
недешевый, но и может еще туеву кучу чего
 
  • Спасибо
Реакции: Nixens

ZULI

Client
Регистрация
09.09.2020
Сообщения
423
Благодарностей
165
Баллы
43
Он кучу денег стоит, тем более по подписке, каждый год платить, а бесплатная версия только 500 ссылок обрабатывает и ограничена функционалом
 
  • Спасибо
Реакции: Nixens

Spelin

Client
Регистрация
24.09.2019
Сообщения
445
Благодарностей
115
Баллы
43
Я бы воспользовался готовым решением, если тупо внешние ссылки надо. SEO FROG или как то так называется, есть еще фришная утилита но запамятовал.
Xenu старая рабочая прога) Ей лет 15 уже точно, но с тем что требуется справится не хуже фрогов и т.п.
 
  • Спасибо
Реакции: Nixens и one

ibred

Client
Регистрация
04.04.2015
Сообщения
3 835
Благодарностей
3 544
Баллы
113
  • Спасибо
Реакции: Nixens, Sergodjan и one

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)