Парсинг текста и кодировка страниц

romanov

Client
Регистрация
14.05.2016
Сообщения
57
Благодарностей
3
Баллы
8
Необходимо парсить текст с рандомных сайтов, но возникает проблема с определением кодировки.
Этот процесс происходит по нижепредставленному алгоритму:


Но все равно в тексте встречаются кракозябры, потому-что вебмастера придумывают различные ухищрения, можно ли как-то решить эту проблему иначе?
 

amyboose

Client
Регистрация
21.04.2016
Сообщения
2 312
Благодарностей
1 191
Баллы
113
Скорее всего ты шлешь заголовки Accept-Encoding с qzip или deflate сжатием, вот и кракозябры. Если это так, то меняй кодировку или расшифровывай поток
 

romanov

Client
Регистрация
14.05.2016
Сообщения
57
Благодарностей
3
Баллы
8
Скорее всего ты шлешь заголовки Accept-Encoding с qzip или deflate сжатием, вот и кракозябры. Если это так, то меняй кодировку или расшифровывай поток
Я об этом и написал, что находится иная кодировка, которая у меня не указана, и я ищу решение, которое позволяет не прописывать все возможные кодировки.
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 039
Баллы
113
а не проще сылку дать ?
 

romanov

Client
Регистрация
14.05.2016
Сообщения
57
Благодарностей
3
Баллы
8
а не проще сылку дать ?
Необходимо парсить текст с рандомных сайтов
Гугл можете например открыть, у всех сайтов будет рандомная кодировка, а может произойти так, что и в заголовке не будет указана.
 

romanov

Client
Регистрация
14.05.2016
Сообщения
57
Благодарностей
3
Баллы
8
Возможно администрация знает решение?
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)