Get возвращает вместо " " символы "&laquo"

zenno60

Пользователь
Регистрация
09.05.2016
Сообщения
99
Благодарностей
1
Баллы
8
Страница имеет
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

При просмотре DOM модели текст выглядит так: "минут»</span>"

После отправки GET(utf- 8 ) запроса, получаю текст "минут&raquo;</span>"

Менял кодировки на windows-1250 и windows-1251 - результата тот же: "минут&raquo;</span>".

Как сделать, чтобы при получении кода страницы GET запросом текст выглядел так "минут»</span>" ?
Т.е. кавычка "»" не заменялась на "&raquo".
 

loogle

Client
Регистрация
08.12.2013
Сообщения
291
Благодарностей
113
Баллы
43
Чисткой текста от пробелов и html сущностей, регулярка:
(\.\.\.|&nbsp;|&quot;|&middot;|&raquo;|&laquo;|&#133;|&#151;|\.\.\.) - оставьте нужную, т.е. изменяем всё что находиться между | |
заменить на
»
 
Последнее редактирование:
  • Спасибо
Реакции: zenno60

zenno60

Пользователь
Регистрация
09.05.2016
Сообщения
99
Благодарностей
1
Баллы
8
У меня парсер
GET(utf- 8 ) запрос получает код страницы, потом регулярками вынимаю необходимую информацию.

Наверное проще сделать под этот код (с "&raquo") регулякрки...
 

Dimionix

Moderator
Регистрация
09.04.2011
Сообщения
3 068
Благодарностей
3 106
Баллы
113
У меня парсер
GET(utf- 8 ) запрос получает код страницы, потом регулярками вынимаю необходимую информацию.

Наверное проще сделать под этот код (с "&raquo") регулякрки...
Можно и универсально, в регулярке вместо "»" прописать
Код:
(»|&raquo;)
 
Последнее редактирование:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)