Регулярка для парсинга ссылок

VladZen · 30.09.2015

для ссылок - http://.*?(?=")
для e-mail - (\w+@.*?\.\w+)
Поясните, что значит бот уходит за пределы сайта.

LexxWork · 30.09.2015

наверно бот кликает по ссылкам, которые находятся за пределами боди страницы.
нужно каждую ссылку проверять где она находится, какой ее размер и сравнивать с шириной и высотой боди

VladZen · 30.09.2015

vitbn58 сказал(а):
Мне допустим надо чтоб он собирал ссылки непосредственно например в пределах форума, а не выходил на сторонние ресурсы, рекламу там и прочие ненужные мне страницы. Походу это не решается, ссылка на рекламы хоть как проходит...

Бот собирает ссылки на той странице, на которой указываете в качестве сурса. Если парсятся лишние ссылки - это точность регулярки.

VladZen · 30.09.2015

vitbn58 сказал(а):
Да эт я понял. Я имею ввиду. Допустим на странице есть полезные ссылки и ссылки бесполезные (реклама, ит.д.). Нет способа отсеять ненужное? Я пока майлы отсеиваю которые содержат support)

А как их понять, полезные они или нет?)

LexxWork · 30.09.2015

когда я делал для себя такой парсер то первым делом опредял доменое имя ресурса чтобы понять какие ссылки внешние, а какие внутренние. Потом просто рекусривно ходил по ссылкам и смотрел изменился ли домен после перехода. Если изменился, то значит эту ссылку удаляем если нужно. Еще лучше сразу же при получении контентайпа отсекать лишний контент, чтобы не захламлять трафик всякими картинками и прочей фигней.
для зенопостера такие задачи очень непродуктивны. Лучше пользоваться сторонним софтом без ограничений на потоки и возможностью использовать внешний пул задач и внешнее хранилище уникальных ссылок .

LexxWork · 30.09.2015

я делаю парсеры на грабе https://github.com/lorien/grab
первоклассный проект и абсолютно бесплатный.

LexxWork · 30.09.2015

вобщето граб русский и доки на русском )

ZennoScript · 30.09.2015

Так а в коде страницы есть домен? Можно собирать только те ссылки, которые начинаются на нужный домен.
Т.е. регулярка, которая собирает ссылки должна выглядеть как то так:
(?<=href=")http://domen.com.*?(?=")

Lexicon · 30.09.2015

Граб - вещь! Сам уже 2 года гоняю.

Посмотрите xenu или netpeak spider

Lexicon · 01.10.2015

ну да
Имхо вообще xenu поудобнее будет она прям в txt файл это все выгружает, но смотрите сами как вам проще

7make · 02.10.2015

https://developer.mozilla.org/ru/docs/Web/API/Document/links

JS => Выполнить на текущей странице

JavaScript:

var links = document.links;
var list = new Array(links.length);

for(var i = 0; i < links.length; i++) {
  list[i] = links[i].href;
}

return list.join("\n");

===

Можно еже фантом заюзать.
http://phantomjs.org/

п.с

LexxWork сказал(а):
вобщето граб русский и доки на русском )

Lexicon сказал(а):
Граб - вещь! Сам уже 2 года гоняю.

как у граба с JS дела и сколько памяти жрет в среднем на 1 поток?

Lexicon · 02.10.2015

7make сказал(а):
как у граба с JS дела и сколько памяти жрет в среднем на 1 поток?

C JS у него плохо, но как то я обхожусь без него. Постер из него конечно так себе, но парсер хороший

Если честно - никогда не забивал себе голову сколько жрет на один поток. Я обычно гоняю спайдер а он однопоточный но асинхронный. Задания выдаю из генератора, сохраняю или в файл или в БД... 600 потоков - летает только в путь, а в памяти лежит... ну допусть пусть те же 600 lxml объектов страницы не думаю что это сильно больше 100 метров

LexxWork · 02.10.2015

можно вобще не парсить страницу в html, а просто искать то что нужно как в тексте.

proffman · 13.11.2015

7make сказал(а):
https://developer.mozilla.org/ru/docs/Web/API/Document/links

JS => Выполнить на текущей странице

JavaScript:

var links = document.links; var list = new Array(links.length); for(var i = 0; i < links.length; i++) { list[i] = links[i].href; } return list.join("\n");

Как допилить код чтобы через запятую не парсил ссылку если в ней содержится определенный текст например
/xml
/#
и.т.д...

proffman · 13.11.2015

riptup сказал(а):
Как допилить код чтобы через запятую не парсил ссылку если в ней содержится определенный текст например
/xml
/#
и.т.д...

Нужно дописать условие и регулярку вот только с js никогда не работаю...
---
+ еще допилить домен для парсинга именно внутренних ссылок а не внешних

Andi88 · 19.02.2016

7make сказал(а):
https://developer.mozilla.org/ru/docs/Web/API/Document/links

JS => Выполнить на текущей странице

JavaScript:

var links = document.links; var list = new Array(links.length); for(var i = 0; i < links.length; i++) { list[i] = links[i].href; } return list.join("\n");

===

Можно еже фантом заюзать.
http://phantomjs.org/

п.с

как у граба с JS дела и сколько памяти жрет в среднем на 1 поток?

Подскажите, как сделать, чтобы сохранялся результат в список?

rostonix · 19.02.2016

То что получилось добавляйте в список экшеном Операции с текстом - В список

Andi88 · 20.02.2016

rostonix сказал(а):
То что получилось добавляйте в список экшеном Операции с текстом - В список

Добавляет вот так- в 1 группу

Andi88 · 20.02.2016

Разобрался с разделителями (вставить разделитель свой > галочка Regxp > вписать \n)

Redsmokky · 16.09.2016

ZennoScript сказал(а):
Так а в коде страницы есть домен? Можно собирать только те ссылки, которые начинаются на нужный домен.
Т.е. регулярка, которая собирает ссылки должна выглядеть как то так:
(?<=href=")http://domen.com.*?(?=")

Не совсем понял как работает такая регулярка, я например пытаюсь им сграбить ссылки с сайта http://www.domik-v-derevne.com
Результат нулевой(

vrb-by · 22.03.2017

VladZen сказал(а):
для ссылок - http://.*?(?=")
для e-mail - (\w+@.*?\.\w+)
Поясните, что значит бот уходит за пределы сайта.

Спасибо за регулярку для e-mail ! Только попался на глаза e-mail ([email protected]) с которым она не справилась( может можно ее доработать и под такой случай?

Dimionix · 22.03.2017

vrb-by сказал(а):
Спасибо за регулярку для e-mail ! Только попался на глаза e-mail ([email protected]) с которым она не справилась( может можно ее доработать и под такой случай?

Код:

[\w\-]+@[\w\-]+\.\w+

Регулярка для парсинга ссылок

Client

Administrator

Client

Client

Administrator

Client

Administrator

Client

Client

Client

Client

Client

Client

Moderator

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Известная личность

Client

Вложения

Client

Client

Вложения

Client

Moderator

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)