Подскажите регулярку вытащить кусок текста

twisterrr

Client
Регистрация
25.12.2011
Сообщения
284
Благодарностей
23
Баллы
18
нужна универсальная регулярка для вытаскивания описания к фильму, например:
<b>Режиссер</b>: Тинто Брасс<br>
<b>В ролях</b>: Анна Жимская, Риккардо Марино, Нела Лучич, Макс Пароди, Паоло Ланца, Лео Мантовани, Клаудио Майоли, Массимо Карадонна, Тинто Брасс<br>
<br>
<b><span style="color:DarkSlateGray;"><font size="3">О фильме</font></span></b>:<br>
<span style="color:DarkSlateGray;"><font size="3">Французский художник Леон приезжает на книжный фестиваль в Венецию. Там он знакомится с Мартой. Почти сразу же они начинают проводить все время вместе, занимаясь любовью повсюду в перерывах между книжными выставками. Их роман продлится ровно пять дней. Но у Марты есть муж, который догадывается об увлечении своей жены...</font></span><br>
<br>
<br>
<a href="http://www.imdb.com/title/tt0480919/" target="_blank"><img src="http://s.rutor.info/imdb/pic/0480919.gif"></a> <a href="http://www.kinopoisk.ru/film/201512/" target="_blank"><img src="http://www.kinopoisk.ru/rating/201512.gif"></a><br>

<br>
<b>Страна</b>: Италия<br>
<b>Студия</b>: DIA Distributori Indipendenti<br>
<b>Продолжительность</b>: 01:38:20<br>
<b>Перевод</b>: Профессиональный двухголосый<br>
<br>

трудность в том что теги (может и не быть тегов, теги могут быть и в самом описании например <b>) вокруг описания постоянно меняются, нельзя за что то зацепится, неизменным остается только текст "О фильме"... вообщем нужно вытащить кириллический текст после фразы "О фильме" и не забрать лишнего..
как это сделать?
 

b1zar

Client
Регистрация
29.06.2019
Сообщения
107
Благодарностей
65
Баллы
28
нужна универсальная регулярка для вытаскивания описания к фильму, например:
<b>Режиссер</b>: Тинто Брасс<br>
<b>В ролях</b>: Анна Жимская, Риккардо Марино, Нела Лучич, Макс Пароди, Паоло Ланца, Лео Мантовани, Клаудио Майоли, Массимо Карадонна, Тинто Брасс<br>
<br>
<b><span style="color:DarkSlateGray;"><font size="3">О фильме</font></span></b>:<br>
<span style="color:DarkSlateGray;"><font size="3">Французский художник Леон приезжает на книжный фестиваль в Венецию. Там он знакомится с Мартой. Почти сразу же они начинают проводить все время вместе, занимаясь любовью повсюду в перерывах между книжными выставками. Их роман продлится ровно пять дней. Но у Марты есть муж, который догадывается об увлечении своей жены...</font></span><br>
<br>
<br>
<a href="http://www.imdb.com/title/tt0480919/" target="_blank"><img src="http://s.rutor.info/imdb/pic/0480919.gif"></a> <a href="http://www.kinopoisk.ru/film/201512/" target="_blank"><img src="http://www.kinopoisk.ru/rating/201512.gif"></a><br>

<br>
<b>Страна</b>: Италия<br>
<b>Студия</b>: DIA Distributori Indipendenti<br>
<b>Продолжительность</b>: 01:38:20<br>
<b>Перевод</b>: Профессиональный двухголосый<br>
<br>

трудность в том что теги (может и не быть тегов, теги могут быть и в самом описании например <b>) вокруг описания постоянно меняются, нельзя за что то зацепится, неизменным остается только текст "О фильме"... вообщем нужно вытащить кириллический текст после фразы "О фильме" и не забрать лишнего..
как это сделать?

Для текста который ты дал подойдет такая регулярка <.*?>
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 466
Благодарностей
8 688
Баллы
113
нужна универсальная регулярка для вытаскивания описания к фильму, например:
<b>Режиссер</b>: Тинто Брасс<br>
<b>В ролях</b>: Анна Жимская, Риккардо Марино, Нела Лучич, Макс Пароди, Паоло Ланца, Лео Мантовани, Клаудио Майоли, Массимо Карадонна, Тинто Брасс<br>
<br>
<b><span style="color:DarkSlateGray;"><font size="3">О фильме</font></span></b>:<br>
<span style="color:DarkSlateGray;"><font size="3">Французский художник Леон приезжает на книжный фестиваль в Венецию. Там он знакомится с Мартой. Почти сразу же они начинают проводить все время вместе, занимаясь любовью повсюду в перерывах между книжными выставками. Их роман продлится ровно пять дней. Но у Марты есть муж, который догадывается об увлечении своей жены...</font></span><br>
<br>
<br>
<a href="http://www.imdb.com/title/tt0480919/" target="_blank"><img src="http://s.rutor.info/imdb/pic/0480919.gif"></a> <a href="http://www.kinopoisk.ru/film/201512/" target="_blank"><img src="http://www.kinopoisk.ru/rating/201512.gif"></a><br>

<br>
<b>Страна</b>: Италия<br>
<b>Студия</b>: DIA Distributori Indipendenti<br>
<b>Продолжительность</b>: 01:38:20<br>
<b>Перевод</b>: Профессиональный двухголосый<br>
<br>

трудность в том что теги (может и не быть тегов, теги могут быть и в самом описании например <b>) вокруг описания постоянно меняются, нельзя за что то зацепится, неизменным остается только текст "О фильме"... вообщем нужно вытащить кириллический текст после фразы "О фильме" и не забрать лишнего..
как это сделать?
Вытащить описание можно такой регуляркой:
Код:
(?<=<font\ size=".">)[\w\W]*?(?=</font>)
Экшен Обработка текста - Regex, совпадение 1 (второе).

44483
 

twisterrr

Client
Регистрация
25.12.2011
Сообщения
284
Благодарностей
23
Баллы
18
Вытащить описание можно такой регуляркой:
Код:
(?<=<font\ size=".">)[\w\W]*?(?=</font>)
как вытащить именно из приведенного мной примера я знаю, но трудность в том что оформление страниц может быть разным, я же это написал в первом посте... для каждой страницы писать свою регулярку ну это же не рационально, нужен именно универсальный шаблон который бы забирал весь текст после фразы "О фильме"
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 466
Благодарностей
8 688
Баллы
113
как вытащить именно из приведенного мной примера я знаю, но трудность в том что оформление страниц может быть разным, я же это написал в первом посте... для каждой страницы писать свою регулярку ну это же не рационально, нужен именно универсальный шаблон который бы забирал весь текст после фразы "О фильме"
Изучайте потенциальные сайты-доноры - какой там разбег с тегами, какие особенности.
Универсальную регулярку для абсолютно всех сайтов, с заранее неизвестной версткой сделать будет проблематично,
но варианты версток для известных вам сайтов прорабоать можно. Отталкивайтесь от "О фильме" и смотрите какие варианты зацепок в конце блока описания бывают.
 

twisterrr

Client
Регистрация
25.12.2011
Сообщения
284
Благодарностей
23
Баллы
18

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 466
Благодарностей
8 688
Баллы
113

b1zar

Client
Регистрация
29.06.2019
Сообщения
107
Благодарностей
65
Баллы
28

twisterrr

Client
Регистрация
25.12.2011
Сообщения
284
Благодарностей
23
Баллы
18
Как вариант использовать два и более Regex, которые будут составлены по разному, для каждой формы коды.
пробовал, накопилось 8 вариантов Regex и постоянно появляются новые страницы где уже созданные шаблоны не подходят, нужен другой метод
 

b1zar

Client
Регистрация
29.06.2019
Сообщения
107
Благодарностей
65
Баллы
28
пробовал, накопилось 8 вариантов Regex и постоянно появляются новые страницы где уже созданные шаблоны не подходят, нужен другой метод
Тут еще сложность в том, что нужно определить именно описание, а оно у тебя меняется. Есть "Описание", есть "О фильме", ну это я глянул пару ссылок, может там и больше вариаций. Попробуй отталкиваться от строки в коде сайта, я смотрел через хром не в зенке, там на 10 страницах, что я глянул, описание начинается 134 строкой и всегда имело границу окончания со статичным тегом <br />. То есть, если описание всегда будет идти одной строкой в коде, то можно забирать все, что начинается с 134 строки и до конца, а потом регуляркой забирать совпадения по тегам и очищать от них
 
  • Спасибо
Реакции: twisterrr и Sergodjan

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)