Удаление лишнего с переменной

Jeka124

Client
Регистрация
19.09.2020
Сообщения
119
Благодарностей
3
Баллы
18
Всем привет. Столкнулся с такой проблемой, не могу удалить пробелы и теги с переменной. При парсинге (через regex) определенной информации в переменную попадаю лишние пробельные символы или теги, пытался удалить через Trim, через список - удаление пробельных символов, через замену - обработка текста, но ничего не срабатывает (замена срабатывает частично). Регулярку не могу составить таким образом, чтобы туда не попадал мусор так как есил нет нужно информации на это месте стоят теги, и как раз эти теги и попадают в переменную. Пытался парсить в список и удалять все кроме нужно инфы но как написал выше почему-то эта функция не срабатывает. Может кто сталкивался с такой проблемой?


И еще заметил, что когда запускаю выполнение поэтапно через кнопку далее выполняется корректно но если нажимаю до кона вылазят ошибки - в переменную попадают не те данные, специально брал те страницы на которых возникали ошибки и перепроверял и через кнопу далее выполняется корректно.

Одна и та же страница

То что спарсилость через кнопку до конца - https://prnt.sc/vbeqit
То что на странице - https://prnt.sc/vbesjo
То что через кнопку далее - https://prnt.sc/vbetok
 

Mikhail B.

Moderator
Регистрация
23.12.2014
Сообщения
14 333
Благодарностей
5 431
Баллы
113
По пробелам:

/s+
Заменить на
{-String.Space-}

Либо на пустоту если надо убрать все проблеы
__
По остальному. Делай несколько регулярок и замен. Если есть лишние теги то делай замену регуляркой. Оно заменит если есть теги, а если их нет то ничего не сделает.
 

Jeka124

Client
Регистрация
19.09.2020
Сообщения
119
Благодарностей
3
Баллы
18
Суть в том, что я так и делаю, через несколько регулярок замен и списки но почему-то это не срабатывает, когда выполняется проект целиком, но через кнопку далее работает. Делал другие шаблоны, все тоже самое, но там все эти вещи работали.
 

Mikhail B.

Moderator
Регистрация
23.12.2014
Сообщения
14 333
Благодарностей
5 431
Баллы
113
Суть в том, что я так и делаю, через несколько регулярок замен и списки но почему-то это не срабатывает, когда выполняется проект целиком, но через кнопку далее работает. Делал другие шаблоны, все тоже самое, но там все эти вещи работали.
Присвой id каждой строчке и сохраняй DOM в файл с этим id в названии. Потом прогони в ZP. И детально проверь каждую баговую строчку в PM. Как правило пару строк посмотришь и поймешь в чем дело.

P.S. рекомендую парсить на запросах. Веб это зло для парсера. Не привыкай к этому!!
 
  • Спасибо
Реакции: Jeka124

Jeka124

Client
Регистрация
19.09.2020
Сообщения
119
Благодарностей
3
Баллы
18
Я уже понял, что парсить через веб не лучший вариант, может по рекомендуете статьи о парсинге через запросы?
 

Mikhail B.

Moderator
Регистрация
23.12.2014
Сообщения
14 333
Благодарностей
5 431
Баллы
113
Я уже понял, что парсить через веб не лучший вариант, может по рекомендуете статьи о парсинге через запросы?
Просто делате get запрос. В коде тот же Dom. Между запросами пауза 10 сек.

А страницы переключать там в ссылке есть page=1 или p=1 или что то подобное. Просто делаете счетчик и к ссылке добавляете.
 

Alexmd

Client
Регистрация
10.12.2018
Сообщения
1 021
Благодарностей
1 387
Баллы
113
C#:
project.Variables["Variable2"].Value = Regex.Replace(project.Variables["Variable2"].Value, @"<.*?>", string.Empty).Trim();
//Эта строка очищает переменную от html-тегов и обрезает пробелы в начале и в конце.
 
  • Спасибо
Реакции: Jeka124 и Mikhail B.

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)