Недействительная суррогатная пара. Отсутствует нижний суррогатный знак.

ibelieve

Client
Регистрация
24.12.2012
Сообщения
248
Благодарностей
96
Баллы
28
Делаю парсинг описаний профилей с Инстаграма. Некоторые пользователи при оформлении используют emoji смайлы, например, вот так. В зависимости от браузера, такие смайлы отображаются нормально или квадаратиками.

При парсинге Зеннопостером эти смайлы идут квадратами всегда, нужно их удалять перед записью в txt. Если это делать через экшен обработки текста, то выскакивает ошибка "Недействительная суррогатная пара. Отсутствует нижний суррогатный знак."

Ниже скрин c экшеном и ошибкой. Можете что-то посоветовать? :-)


error.png
 

Вложения

  • 46,2 КБ Просмотры: 61
Последнее редактирование:

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 458
Благодарностей
8 682
Баллы
113
Делаю парсинг описаний профилей с Инстаграма. Некоторые пользователи при оформлении используют emoji смайлы, например, вот так "Ink model Stylist imagemaker Fashion blogger 21 y.o".
При парсинге Зеннопостером эти смайлы идут всегда квадратами, нужно их удалять. Если это делать через экшен обработки текста, то выскакивает ошибка "Недействительная суррогатная пара. Отсутствует нижний суррогатный знак." Можете что-то посоветовать? :-)
не факт что поможет, но можно попробовать: не заменять конкретные символы-квадратики в переменной на пробел, а чистить содержимое переменной, например регуляркой:
Код:
.*[a-zA-Z0-9]
(регулярка сырая, просто для тестирования)
 

ibelieve

Client
Регистрация
24.12.2012
Сообщения
248
Благодарностей
96
Баллы
28
не факт что поможет, но можно попробовать: не заменять конкретные символы-квадратики в переменной на пробел, а чистить содержимое переменной, например регуляркой:
Код:
.*[a-zA-Z0-9]
(регулярка сырая, просто для тестирования)
О! Точно! Спасибо за наводку! :-) Поставил
Код:
[^a-zA-Z\sа-яА-Я,.!?]
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)