Поиск тегов в тексте

eagleowl

Client
Регистрация
03.11.2012
Сообщения
263
Благодарностей
30
Баллы
28
Вот с такой задачей столкнулся - есть короткие описания, нужно из них выделить теги. Не по частоте упоминания в тексте, а вообще - по смыслу.
Например текст: "вчера вечером мы ходили в хороший ресторан с видом на море." Как из этого текста выделить теги "ресторан" и "вид на море". Содержимое текста при этом может быть совершенно каким угодно, на любую тему, потому самостоятельно заранее предусмотреть теги пожалуй невозможно.
Я искал подобные сервисы, но ничего не нашел.
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 165
Благодарностей
2 167
Баллы
113
как по мне, так это "утопия".
Хотя вариант теоретический: надо иметь словарь-список с самыми часто встречаемыми в нужном языке тегами, типа:
  • ресторан
  • вид на море
  • скачать программу
  • как похудеть
  • ...
И потом для каждого элемента из списка в цикле проверить не содержится ли он в нашем тексте. Если содержится, то сохраняем такие совпадения в отдельный список.
Это затратно по ресурсам, если словарь крупный. вторая проблема - где напарсить элементов для словаря? может найти крупный портал-форум, где есть доступ с парсингу облака тегов, и стырить оттуда.

UPD: а если слова в разных падежах\формах, то их перед сравнением тогда надо еще привести и единому варианту через стемминг - https://zennolab.com/discussion/threads/kak-mne-realizovat-stemming.22494/#post-327883
 
  • Спасибо
Реакции: eagleowl

alexpost

Client
Регистрация
15.06.2016
Сообщения
173
Благодарностей
60
Баллы
28
Тоже думаю, что задача нетривиальная. Только потратишь время и не найдешь универсального решения.
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 856
Баллы
113

eagleowl

Client
Регистрация
03.11.2012
Сообщения
263
Благодарностей
30
Баллы
28

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 856
Баллы
113
Где ж для него только взять обучающую выборку размеченную?)
Простейший для обучения и очень мощный классификатор можно взять у фейсбука, чтоб не делать свой: https://fasttext.cc/docs/en/supervised-tutorial.html (но нужно знать все сущности заранее)

PS: чтобы лучше понять задачу - советую формализировать "ресторан" и "вид на море", чтоб понимать что именно хочется вытаскивать из текста.
 
  • Спасибо
Реакции: eagleowl

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)