Сбор url с любых сайтов

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 110
Благодарностей
195
Баллы
63
Нужен шаблон или один кубик на c# ( как вам удобнее), который будет выполнять следующие действия
1. Сбор всех внутренних url сайтов, которые заранее заданны в списке
2. Запись собранных url во второй список
Все :-)
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 943
Благодарностей
4 336
Баллы
113
Нужен шаблон или один кубик на c# ( как вам удобнее), который будет выполнять следующие действия
1. Сбор всех внутренних url сайтов, которые заранее заданны в списке
2. Запись собранных url во второй список
Все :-)
Найди screaming frog. Сделает раз в миллион быстрее и качественнее эту задачу.
Тебе же надо именно паука для сбора Урлов со всех страниц сайтов? Иначе это пишется на Зенке за 5 минут.
 

slavon

Client
Регистрация
24.06.2016
Сообщения
597
Благодарностей
128
Баллы
43

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 943
Благодарностей
4 336
Баллы
113
  • Спасибо
Реакции: slavon

specialist

Client
Регистрация
28.12.2018
Сообщения
732
Благодарностей
343
Баллы
63
Регуляркой парсишь DOM и всё)
Парсит как есть, если путь относительный, то ссылка от этой страницы и будет считаться. Если нужны полные ссылки, нужно производить пересчет ссылок, можно через C#, можно через Javascript
 

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 110
Благодарностей
195
Баллы
63
Регистрация
23.03.2015
Сообщения
1 130
Благодарностей
659
Баллы
113

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 110
Благодарностей
195
Баллы
63
Парсит как есть, если путь относительный, то ссылка от этой страницы и будет считаться. Если нужны полные ссылки, нужно производить пересчет ссылок, можно через C#, можно через Javascript
Спасибо за совет, но я не знаю как это сделать ни на c#, ни на яве)
 
Регистрация
23.03.2015
Сообщения
1 130
Благодарностей
659
Баллы
113
Спасибо за совет, но я не знаю как это сделать ни на c#, ни на яве)
как это делал я:
Брал спаршенный урл и проверял есть ли в начале "http(s)://" если есть, то урл полный, если нет, то добавляю в начало http(s)://domen.ru
 
  • Спасибо
Реакции: Astraport

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 110
Благодарностей
195
Баллы
63
как это делал я:
Брал спаренный урл и проверял есть ли в начале "http(s)://" если есть, то урл полный, если нет, то добавляю в начало http(s)://domen.ru
Это да, я тоже так делал) Плюс потом фильтры разные накручивал. Мне нужны именно внутренние url сайта, желательно только те, которые содержат статьи. Это уже детали, я их сам доделаю. Мне главное парсер урлов
 
  • Спасибо
Реакции: KolkaPetkinSyn
Регистрация
23.03.2015
Сообщения
1 130
Благодарностей
659
Баллы
113
Это да, я тоже так делал) Плюс потом фильтры разные накручивал. Мне нужны именно внутренние url сайта, желательно только те, которые содержат статьи. Это уже детали, я их сам доделаю. Мне главное парсер урлов
я паршу такой регуляркой
C#:
(?<=href=").*?(?=")
пока не подводила
 

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 110
Благодарностей
195
Баллы
63
Регистрация
23.03.2015
Сообщения
1 130
Благодарностей
659
Баллы
113
Спасибо. Ссылки чистенько парсятся)
пожалуйста.
Я как то, то же искал универсальную регулярку. Весь форум перерыл, но всё какие то косяки. А потом сам код глянул ещё разок и эврика! Ответ так прост.
 
  • Спасибо
Реакции: mr.wolf

606

Client
Регистрация
07.03.2019
Сообщения
20
Благодарностей
3
Баллы
3

Juniorcpa

Client
Регистрация
27.05.2014
Сообщения
2 031
Благодарностей
1 285
Баллы
113
xenu скачайте :-)
 
  • Спасибо
Реакции: 606

Reysh

Client
Регистрация
02.12.2018
Сообщения
198
Благодарностей
132
Баллы
43
Это же не C# код, а регулярное выражение, его нужно добавить в кубик парсинга по Regex
 
  • Спасибо
Реакции: 606

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)