Регулярка с удалеим До символа и после, очистка списка, удаление ссылок с текстовки

JanCarlo

Client
Регистрация
04.03.2018
Сообщения
353
Благодарностей
40
Баллы
28
Господа, прошу помощи по регуляркам

1)
Помогите пожалуйста составить регулярку которая будет удалять ОТ ".ru" до первого пробела в Левую сторону, и в правую сторону?

Суть - имеем текст большой, в тексте ссылки, эти ссылки могут быть очень разных видов, нужно удалить все ссылки более менее универсальной регуляркой

К примеру:
<b>Рецепты</b> зеленых <b>смузи</b> <b>для</b> <b>похудения</b>, основанные на ваших личных предпочтениях, помогут вам сбросить лишние килограммы гораздо быстрее, чем следование чужим <b>рецептам</b> <b>с</b> ингредиентами, которые вы не любите. Стройная фигура – это показатель позитивного отношения ко всему, что вас окружает. Это также относится и к еде! Источник: https://tvoi-povarenok.ru/smuzi-ovoshhnye-dlya-poxudeniya.html. Овощные <b>смузи</b> <b>рецепты</b> для <b>блендера</b> <b>с</b> <b>фото</b> в домашних условиях. Привет всем! Продолжаю экспериментировать с <b>рецептами</b> <b>смузи</b>, и сегодня у нас по программе — <b>рецепты</b> овощных <b>смузи</b> в домашних условиях! <b>Смузи</b> – это ...
Нужно удалить ссылку https://tvoi-povarenok.ru/smuzi-ovoshhnye-dlya-poxudeniya.html
Ссылки разные, с http, https, без http и так далее, под каждый вид ссылок подбирать пачку регулярок муторно.
Вопрос, имеем корень .ru - как от него удалить всё до первого пробела вправо, и влево?

2) Есть список в зенке, там линки на картинки

Как регуляркой удалить строки закрашенные красным?
Тут как то посоветовали найти строки где есть всего три слэша типа https://site.com/ но тогда удалятся и ссылки вида https://site.com/superpage

3) Есть список:
краска, краски, красители, лаки, купить лакокрасочные материалы
краски для дома, лаки по дереву
купить красители
как составить регулярку так что бы удалить все слова до последней запятой? что бы осталось вот так:

купить лакокрасочные материалы
лаки по дереву
купить красители
кто сможет помочь?
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 458
Благодарностей
8 682
Баллы
113
1. Попробуйте такую регулярку в экшене Обработка текста - Замена (Regex), Все - замена на пустоту:
Код:
(https://|http://).*?(?=\ )
44927



2. Экшен Операции над списком - Удалить строки не удовлетворяющие рег-выражению:
Код:
\/\/(.*?)\/\w

3. Объединить спсиок в переменную и применить экшен Обработка текста - Замена (Regex), Все - замена на пустоту, по регулярке:
Код:
.*,\
44928
 
  • Спасибо
Реакции: JanCarlo

JanCarlo

Client
Регистрация
04.03.2018
Сообщения
353
Благодарностей
40
Баллы
28

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 458
Благодарностей
8 682
Баллы
113
  • Спасибо
Реакции: JanCarlo

JanCarlo

Client
Регистрация
04.03.2018
Сообщения
353
Благодарностей
40
Баллы
28
Под этот вариант надо делать привязку к слову Источник:
Вот в том то и дело, что "источник" почти нигде не присутствует, текста очень разные, это краткое описание поисковой выдачи с поисковиков, бывает вобще без протоколов и www, бывает и с тем и с другим =(
В основном текста такие:
Текст текст текст, superlink.io текст текст текст
то есть ссылку только пробелы отделают и выявить ссылку можно по доменному имени. Если бы можно было создать регулярку которая удаляет от корня до первого пробела влево и от корня до первого пробела вправо, тогда можно было бы сделать пару регулярок с разными доменными зонами и тогда более менее все ссылки удалились бы
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 458
Благодарностей
8 682
Баллы
113
Вот в том то и дело, что "источник" почти нигде не присутствует, текста очень разные, это краткое описание поисковой выдачи с поисковиков, бывает вобще без протоколов и www, бывает и с тем и с другим =(
В основном текста такие:

то есть ссылку только пробелы отделают и выявить ссылку можно по доменному имени. Если бы можно было создать регулярку которая удаляет от корня до первого пробела влево и от корня до первого пробела вправо, тогда можно было бы сделать пару регулярок с разными доменными зонами и тогда более менее все ссылки удалились бы
Попробуйте такую:
Код:
[a-z0-9_-]+(\.[a-z0-9_-]+)*\.[a-z]{2,5}
Взята здесь:
 
  • Спасибо
Реакции: JanCarlo

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)