Подскажите как взять текстовую часть элемента

Sefroz

Client
Регистрация
20.11.2017
Сообщения
54
Благодарностей
3
Баллы
8
Подскажите как взять текстовую часть элемента с помощью C#

Нужно именно текстовую , тк там искомая часть, которую потом вырезаю разными цветами и со всяким лишним хтмл мусором, не всегда одинаково отрабатывают регулярки. Если взять целиком текст страницы, там куча других значений , кроме искомого подойдет по регулярку в итоге. Нужно взять именно текст этого элемента.

тег: div

Группа Атрибут Тип поиска Значение № совпадения
0 class regexp dialog-content 0

Группа Атрибут Тип поиска Значение № совпадения
0 outerhtml regexp preview-header 0
 

ex3maL

Client
Регистрация
22.05.2020
Сообщения
359
Благодарностей
267
Баллы
63

Sefroz

Client
Регистрация
20.11.2017
Сообщения
54
Благодарностей
3
Баллы
8
мб кусок кода хотя бы скинешь?
и что надо в итоге получить


дело в том, что html мусор каждый раз может быть разный, он может стоять посреди искомого значения, например:
<u><span class="highlight">XXXXXX</span>VVVVVV</u></span><span style="font-family:'Calibri';font-size:12pt;color:#0000ff;"><u>PPPPP</u>

на выходе XXXXXXVVVVVVPPPPP это по частям там не спарсить, это может быть в разных местах итп, после какой то из букв. Иногда хтмл может стоять посреди текста, а иногда нет итп. Нормально парсится только текст кароче.

Часть значений я убираю и паршу результат, но другой лишний хтмл чтобы высеивать, нужно очень много прогонять , тестить итп. Только в тексте, который виден, без хтмл, нормально можно спарсить значение. Я бы просто взял текст страницы, но там много разных других значений, которые тоже спарсятся кроме искомого.

Поэтому нужно взять текст без хтмл именного этого элмента.
 

ex3maL

Client
Регистрация
22.05.2020
Сообщения
359
Благодарностей
267
Баллы
63
дело в том, что html мусор каждый раз может быть разный, он может стоять посреди искомого значения, например:
<u><span class="highlight">XXXXXX</span>VVVVVV</u></span><span style="font-family:'Calibri';font-size:12pt;color:#0000ff;"><u>PPPPP</u>

на выходе XXXXXXVVVVVVPPPPP это по частям там не спарсить, это может быть в разных местах итп, после какой то из букв. Иногда хтмл может стоять посреди текста, а иногда нет итп. Нормально парсится только текст кароче.

Часть значений я убираю и паршу результат, но другой лишний хтмл чтобы высеивать, нужно очень много прогонять , тестить итп. Только в тексте, который виден, без хтмл, нормально можно спарсить значение. Я бы просто взял текст страницы, но там много разных других значений, которые тоже спарсятся кроме искомого.

Поэтому нужно взять текст без хтмл именного этого элмента.
ну так получай весь этот блок где нужное значение
а потом Регекс и готово


Код:
string html = project.Variables["htmlCode"].Value;
project.SendWarningToLog("Строка до изменений: " + html);
html = Regex.Replace(html, @"<[\w\W]*?>", "");
project.SendWarningToLog("Строка после изменений: " + html);
return html;
2021-11-04_042556.png
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)