Помогите правильно написать регулярку

b1zar

Client
Регистрация
29.06.2019
Сообщения
107
Благодарностей
65
Баллы
28
Доброго времени суток. С регулярками не когда не было проблем, до этого момента. Много перепробовал разных форм ее написания, но так и не получилось сделать, то что мне нужно.

a class="link link_theme_normal organic__url link_cropped_no i-bem link_js_inited" data-bem="{"link":{}}" rel="noopener" data-log-node="l5trho" target="_blank" tabindex="0" href=" " data-counter="

a class="link link_theme_normal organic__
trash link_cropped_no i-bem link_js_inited" data-bem="{"link":{}}" rel="noopener" data-log-node="l5trho" target="_blank" tabindex="0" href=" " data-counter="

a class="link link_theme_normal organic__
unit i-bem link_js_inited" data-bem="{"link":{}}" rel="noopener" data-log-node="l5trho" target="_blank" tabindex="0" href=" " data-counter="

Красные символы не меняются, а вот синие могут меняться в не значительных вариациях. Сначала я написал регулярку и она отработала нормально, пока не дошло, что может меняться не только там.

Вот сама регулярка: (?<=class="link\ link_theme_normal\ organic__thumb\ i-bem"\ data-bem="\{&quot;link\S\w\S*\{}}"\ rel="noopener"\ data-log-node="\w*"\ target="_blank"\ tabindex="0"\ href=").*?(?=")

Как правильно написать регулярку? Когда я заменяю thumb\ i-bem"\ data-bem="\ на .* то у меня начинает тянуть всякий мусор который даже не имеет похожего в регулярке.

Через //favicon думал сделать, но там бывает, что отображаются не все ссылки.
 

Вложения

Mikhail B.

Moderator
Регистрация
23.12.2014
Сообщения
14 328
Благодарностей
5 431
Баллы
113
В таких случаях я собираю максимально возможное кол-во вариаций в список. И потом уже тестирую разные варианты. Сложно будет сделать что-то универсальное имея в распоряжении всего лишь один DOM.


Не совсем понятно, какие именно сылки надо тянуть из дома. Примеры ссылок пришли которые есть в доме.
kg-portal там нету
 

Roman48

Client
Регистрация
28.02.2016
Сообщения
2 058
Благодарностей
742
Баллы
113
Что мешает просто взять и спарсить ссылки? Нажимаешь на ссылку, правой копкой мышки и спарсить.
Вот регулярка, которая нужна (?<=<h2\ class="organic__title-wrapper).*?(?=data-counter=")
1591011109678.png
 
  • Спасибо
Реакции: b1zar и Mikhail B.

b1zar

Client
Регистрация
29.06.2019
Сообщения
107
Благодарностей
65
Баллы
28
В таких случаях я собираю максимально возможное кол-во вариаций в список. И потом уже тестирую разные варианты. Сложно будет сделать что-то универсальное имея в распоряжении всего лишь один DOM.



Не совсем понятно, какие именно сылки надо тянуть из дома. Примеры ссылок пришли которые есть в доме.
kg-portal там нету
В таких случаях я собираю максимально возможное кол-во вариаций в список. И потом уже тестирую разные варианты. Сложно будет сделать что-то универсальное имея в распоряжении всего лишь один DOM.



Не совсем понятно, какие именно сылки надо тянуть из дома. Примеры ссылок пришли которые есть в доме.
kg-portal там нету
Да это я как пример туда вбил. Дом тоже примерный. Так то регулярка почти готовая, только вот как заменить thumb\ i-bem"\ data-bem="\ на то, что там могут быть любые символы. Прописываю .* он перестает учитывать, что было до, точнее class="link\ link_theme_normal\ organic__ и получается, что учитывается только, что было после .* и отсюда тянет всякий мусор
 
Последнее редактирование:

b1zar

Client
Регистрация
29.06.2019
Сообщения
107
Благодарностей
65
Баллы
28
Что мешает просто взять и спарсить ссылки? Нажимаешь на ссылку, правой копкой мышки и спарсить.
Вот регулярка, которая нужна (?<=<h2\ class="organic__title-wrapper).*?(?=data-counter=")
Посмотреть вложение 57240
Так не делаю, потому, что получаю только DOM, а регулярка не рабочая
 

Roman48

Client
Регистрация
28.02.2016
Сообщения
2 058
Благодарностей
742
Баллы
113

Roman48

Client
Регистрация
28.02.2016
Сообщения
2 058
Благодарностей
742
Баллы
113

b1zar

Client
Регистрация
29.06.2019
Сообщения
107
Благодарностей
65
Баллы
28
Посмотреть вложение 57241
Рабочая, сначала берешь это, потом еще регуляркой берешь ссылки уже
Да действительно рабочая, из за малого окна не увидел ссылок. А твой шаблон не смогу чекнуть, т.к там ограничение по версии зенки стоит. с 5.32 не хочется уходить.Спасибо.
 

Platon

Client
Регистрация
26.09.2015
Сообщения
260
Благодарностей
121
Баллы
43
Я бы проще сделал, через XPATH вытащил нужные ссылки
 

Mikhail B.

Moderator
Регистрация
23.12.2014
Сообщения
14 328
Благодарностей
5 431
Баллы
113
Да действительно рабочая, из за малого окна не увидел ссылок. А твой шаблон не смогу чекнуть, т.к там ограничение по версии зенки стоит. с 5.32 не хочется уходить.Спасибо.
Думал Рома снимет тебе шифрование. Держи
 

Вложения

  • Спасибо
Реакции: b1zar

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)