Корявый html код на сайте не дает спарсить

inilim

Client
Регистрация
16.09.2017
Сообщения
441
Благодарностей
170
Баллы
43
Здравствуйте.
Есть сайт со статистикой результатов тенниса, хочу спарсить результаты матча, но из-за не понятного вывода html кода, не могу придумать как спарсить результат, смотрим код:
Пример 1
Подцеплял значение inner тегов td, но результат нужна в строчку.
HTML:
<td class="left" width="40%">
            Храдеска Люси
                                    —
            Андрееску Бьянка Ванесса                                </td>
Пример 2
HTML:
            (2:6, 6:2, 7:5)
Эти не понятные отступы, пробелы, переносы. Из-за них не могу регулярку построить.
Пробовал даже со скрытыми символами, бестолку, не чем подцепить. На самом сайте отображается корректно.
Есть решение?

Код:
Сам сайт https://24scores.org/tennis/player/czech_republic/hradecka_lucie/
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 493
Благодарностей
8 697
Баллы
113
Здравствуйте.
Есть сайт со статистикой результатов тенниса, хочу спарсить результаты матча, но из-за не понятного вывода html кода, не могу придумать как спарсить результат, смотрим код:
Пример 1
Подцеплял значение inner тегов td, но результат нужна в строчку.
HTML:
<td class="left" width="40%">
            Храдеска Люси
                                    —
            Андрееску Бьянка Ванесса                                </td>
Пример 2
HTML:
            (2:6, 6:2, 7:5)
Эти не понятные отступы, пробелы, переносы. Из-за них не могу регулярку построить.
Пробовал даже со скрытыми символами, бестолку, не чем подцепить. На самом сайте отображается корректно.
Есть решение?

Код:
Сам сайт https://24scores.org/tennis/player/czech_republic/hradecka_lucie/
парсить как есть, а результат потом можно почистить от переносов строк и конечных и начальных пробельных символов..
нужные экшены:
- Обработка текста - Замена
- Обработка текста - Trim
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)