Помогите правильно написать регулярку

b1zar

Client
Joined
Jun 29, 2019
Messages
107
Reaction score
66
Points
28
Доброго времени суток. С регулярками не когда не было проблем, до этого момента. Много перепробовал разных форм ее написания, но так и не получилось сделать, то что мне нужно.

a class="link link_theme_normal organic__url link_cropped_no i-bem link_js_inited" data-bem="{"link":{}}" rel="noopener" data-log-node="l5trho" target="_blank" tabindex="0" href=" " data-counter="

a class="link link_theme_normal organic__
trash link_cropped_no i-bem link_js_inited" data-bem="{"link":{}}" rel="noopener" data-log-node="l5trho" target="_blank" tabindex="0" href=" " data-counter="

a class="link link_theme_normal organic__
unit i-bem link_js_inited" data-bem="{"link":{}}" rel="noopener" data-log-node="l5trho" target="_blank" tabindex="0" href=" " data-counter="

Красные символы не меняются, а вот синие могут меняться в не значительных вариациях. Сначала я написал регулярку и она отработала нормально, пока не дошло, что может меняться не только там.

Вот сама регулярка: (?<=class="link\ link_theme_normal\ organic__thumb\ i-bem"\ data-bem="\{&quot;link\S\w\S*\{}}"\ rel="noopener"\ data-log-node="\w*"\ target="_blank"\ tabindex="0"\ href=").*?(?=")

Как правильно написать регулярку? Когда я заменяю thumb\ i-bem"\ data-bem="\ на .* то у меня начинает тянуть всякий мусор который даже не имеет похожего в регулярке.

Через //favicon думал сделать, но там бывает, что отображаются не все ссылки.
 

Attachments

Mikhail B.

Moderator
Joined
Dec 23, 2014
Messages
14,333
Reaction score
5,431
Points
113
В таких случаях я собираю максимально возможное кол-во вариаций в список. И потом уже тестирую разные варианты. Сложно будет сделать что-то универсальное имея в распоряжении всего лишь один DOM.


Не совсем понятно, какие именно сылки надо тянуть из дома. Примеры ссылок пришли которые есть в доме.
kg-portal там нету
 

Roman48

Client
Joined
Feb 28, 2016
Messages
2,058
Reaction score
742
Points
113
Что мешает просто взять и спарсить ссылки? Нажимаешь на ссылку, правой копкой мышки и спарсить.
Вот регулярка, которая нужна (?<=<h2\ class="organic__title-wrapper).*?(?=data-counter=")
1591011109678.png
 

b1zar

Client
Joined
Jun 29, 2019
Messages
107
Reaction score
66
Points
28
В таких случаях я собираю максимально возможное кол-во вариаций в список. И потом уже тестирую разные варианты. Сложно будет сделать что-то универсальное имея в распоряжении всего лишь один DOM.



Не совсем понятно, какие именно сылки надо тянуть из дома. Примеры ссылок пришли которые есть в доме.
kg-portal там нету
В таких случаях я собираю максимально возможное кол-во вариаций в список. И потом уже тестирую разные варианты. Сложно будет сделать что-то универсальное имея в распоряжении всего лишь один DOM.



Не совсем понятно, какие именно сылки надо тянуть из дома. Примеры ссылок пришли которые есть в доме.
kg-portal там нету
Да это я как пример туда вбил. Дом тоже примерный. Так то регулярка почти готовая, только вот как заменить thumb\ i-bem"\ data-bem="\ на то, что там могут быть любые символы. Прописываю .* он перестает учитывать, что было до, точнее class="link\ link_theme_normal\ organic__ и получается, что учитывается только, что было после .* и отсюда тянет всякий мусор
 
Last edited:

b1zar

Client
Joined
Jun 29, 2019
Messages
107
Reaction score
66
Points
28
Что мешает просто взять и спарсить ссылки? Нажимаешь на ссылку, правой копкой мышки и спарсить.
Вот регулярка, которая нужна (?<=<h2\ class="organic__title-wrapper).*?(?=data-counter=")
View attachment 57240
Так не делаю, потому, что получаю только DOM, а регулярка не рабочая
 

Roman48

Client
Joined
Feb 28, 2016
Messages
2,058
Reaction score
742
Points
113
Так не делаю, потому, что получаю только DOM, а регулярка не рабочая
1591013124744.png
Рабочая, сначала берешь это, потом еще регуляркой берешь ссылки уже
 

b1zar

Client
Joined
Jun 29, 2019
Messages
107
Reaction score
66
Points
28
View attachment 57241
Рабочая, сначала берешь это, потом еще регуляркой берешь ссылки уже
Да действительно рабочая, из за малого окна не увидел ссылок. А твой шаблон не смогу чекнуть, т.к там ограничение по версии зенки стоит. с 5.32 не хочется уходить.Спасибо.
 

Platon

Client
Joined
Sep 26, 2015
Messages
260
Reaction score
121
Points
43
Я бы проще сделал, через XPATH вытащил нужные ссылки
 

Mikhail B.

Moderator
Joined
Dec 23, 2014
Messages
14,333
Reaction score
5,431
Points
113
Да действительно рабочая, из за малого окна не увидел ссылок. А твой шаблон не смогу чекнуть, т.к там ограничение по версии зенки стоит. с 5.32 не хочется уходить.Спасибо.
Думал Рома снимет тебе шифрование. Держи
 

Attachments

  • Thank you
Reactions: b1zar

Users Who Are Viewing This Thread (Total: 1, Members: 0, Guests: 1)