Как реализовать сбор мыл с разных сайтов

mondayx

Пользователь
Регистрация
18.03.2015
Сообщения
55
Благодарностей
0
Баллы
6
Есть список сайтов, с которых нужно спарсить мыльники
Алгоритм за которым я хочу это делать:
1. Заходим на сайт
2. Делаем поиск по сайту ссылки с текстом "Контакты" или "Связь с нами"
3. Переходим по ссылке
4. Находим знак "@"
5. Парсим мыло целиком


Посоветуйте, как это реализовать или более рациональный алгоритм.
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 441
Благодарностей
8 672
Баллы
113
Есть список сайтов, с которых нужно спарсить мыльники
Алгоритм за которым я хочу это делать:
1. Заходим на сайт
2. Делаем поиск по сайту ссылки с текстом "Контакты" или "Связь с нами"
3. Переходим по ссылке
4. Находим знак "@"
5. Парсим мыло целиком


Посоветуйте, как это реализовать или более рациональный алгоритм.
я бы еще с главной страницы парсил, там тоже мыло бывает, например в шапке, сайдбаре или в футере.. Проверять на наличие @ необязательно, просто парсить регуляркой..
Регулярка:
Код:
(\w+@[a-zA-Z0-9-_]+?\.[a-zA-Z]{2,6})
 
  • Спасибо
Реакции: mondayx

mondayx

Пользователь
Регистрация
18.03.2015
Сообщения
55
Благодарностей
0
Баллы
6
Спасибо за регулярку:-)
Тоесть можно прописать все возможные адреса страниц с контактами и парсить переходя на них все?

Например:
site.ru
site.ru/contacts.html
site.ru/contacts.htm
site.ru/contacty.html
site.ru/contacty.htm
site.ru/kontakty.html
site.ru/kontakty.htm

Или есть какой-то более рациональный способ ? :-)

Кстати, как заставить браузер переходить по ссылкам вида : {-Variable.site-} kontakty.html ?

Попробовал следующие варианты:
{-Variable.site-}+kontakty.html
{-Variable.site-}'kontakty.html'
{-Variable.site-}+'kontakty.html'
'{-Variable.site-}'+'kontakty.html'
'{-Variable.site-}kontakty.html'
'{-Variable.site-}+kontakty.html'
 

alekwuy

Client
Регистрация
06.04.2013
Сообщения
1 631
Благодарностей
461
Баллы
83
смотря что у вас в {-Variable.site-}
если там http://site.ru то {-Variable.site-}/kontakty.html
 

mondayx

Пользователь
Регистрация
18.03.2015
Сообщения
55
Благодарностей
0
Баллы
6
смотря что у вас в {-Variable.site-}
если там http://site.ru то {-Variable.site-}/kontakty.html
дак смысл в том, что экшн не вписывает в строку браузера то, что я пишу после переменной
не важно правильно или не правильно
экшен должен вписать в строку браузера данные а тогда нажать Enter, если адрес правильный - заход на страницу. Если такой страницы нет - то "веб-страница недоступна"
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 441
Благодарностей
8 672
Баллы
113
дак смысл в том, что экшн не вписывает в строку браузера то, что я пишу после переменной
не важно правильно или не правильно
экшен должен вписать в строку браузера данные а тогда нажать Enter, если адрес правильный - заход на страницу. Если такой страницы нет - то "веб-страница недоступна"
проверьте на всяк. случай, что именно в этот момент в переменной site..
кстати кавычки не нужны..
 

mondayx

Пользователь
Регистрация
18.03.2015
Сообщения
55
Благодарностей
0
Баллы
6
Решил проблему: присвоение переменной {-Variable.site-} значения {-Variable.site-}+/kontakty.html
проверьте на всяк. случай, что именно в этот момент в переменной site..
кстати кавычки не нужны..
Да это лаг был :(
Сделал проект заново - все работает

Теперь вопрос по самой структуре:
возможно ли сделать стандартными екшенами в ПМ : поиск текста "контакты"->клик по тексту (так как предполагается что это ссылка)->переход на страницу контактов->парсинг мыла регуляркой
?
 

mondayx

Пользователь
Регистрация
18.03.2015
Сообщения
55
Благодарностей
0
Баллы
6
Вот шаблон прикрепляю с тем, что я придумал. Время парсинга одного сайта через ПМ - 50 секунд. Но это многовато. Как оптимизировать алгоритм парсинга?
 

Вложения

alekwuy

Client
Регистрация
06.04.2013
Сообщения
1 631
Благодарностей
461
Баллы
83

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 441
Благодарностей
8 672
Баллы
113
Вот шаблон прикрепляю с тем, что я придумал. Время парсинга одного сайта через ПМ - 50 секунд. Но это многовато. Как оптимизировать алгоритм парсинга?
это через отложенную отрисовку 50 секунд?
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 706
Баллы
113
Вот шаблон прикрепляю с тем, что я придумал. Время парсинга одного сайта через ПМ - 50 секунд. Но это многовато. Как оптимизировать алгоритм парсинга?
шаблон ужас )
Запишите просто через конструктор действий клик по ссылке и там в значении value для href напишите варианты (contact|kontakt|kontact)
тип поиска при этом поставить regexp
 
  • Спасибо
Реакции: mondayx

mondayx

Пользователь
Регистрация
18.03.2015
Сообщения
55
Благодарностей
0
Баллы
6
Спасибо за совет 8-)
 

igzdizain

Client
Регистрация
16.05.2015
Сообщения
495
Благодарностей
15
Баллы
18
шаблон ужас )
Запишите просто через конструктор действий клик по ссылке и там в значении value для href напишите варианты (contact|kontakt|kontact)
тип поиска при этом поставить regexp
на какую ссылку кликать?
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 706
Баллы
113
На любую) потом отредактировать экшен) Изменив условия поиска элемента
 
Регистрация
24.12.2015
Сообщения
20
Благодарностей
6
Баллы
3
Есть какие нибудь изменения по шаблону по поиску мыл?
может у кого есть рабочая версия,я бы прикупил для сбора мыл..
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 441
Благодарностей
8 672
Баллы
113
есть программа замечательная (один из вариантов) ePochta Extractor
собирает хорошо..
шаблон, мне кажется, все равно не даст эффективности для сбора мыл..
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 605
Благодарностей
4 596
Баллы
113
заходим на главную, парсим все ссылки, удаляем не пренадлежащие сайту и ищем мыло по ним уже. Это будет много дольше, зато пробив будет)
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)