Алгоритм определения тематики статьи

Radzhab · 23.12.2014

https://tech.yandex.ru/tomita/

svaminar · 23.12.2014

Radzhab а прикольно б било такую штуку в зенно добавить. Как есть для анг языка !

svaminar · 23.12.2014

неа. Как по мне так это по божески. В плане сложности реализации можно еще проще но платно

budora · 23.12.2014

Severip сказал(а):
Гм, а нельзя как-то попроще и на зенке?
Чтобы не выныривать из шаба для решения этой задачи...

Если проще то я думаю сервис..
Делал шаблон под ТЫЦ
API есть и есть и вполне сносно определяет.

Radzhab · 23.12.2014

Друзья не парьтесь. На досуге попробую с этой томитой разобраться

Lexicon · 23.12.2014

У самого мануал по томите открыт, но руки не доходят, но судя по всему она способна определять заранее заданные цепочки связанных фактов, а не общую тематику... хотя могу и наврать)

Вообще так исторически сложилось, что я в общем то делал всю эту процедуру неоднократно, но для определения весов слов и сравнения текстов как групп множеств... ну в общем я могу вам довольно легко и просто показать как сделать 1-5 пункт, правда не на зенке а на питоне (но его можно подружить с зенкой через баники), если вы мне расскажете как вы "верхушки" определите тематику?)))

LexxWork · 23.12.2014

почему такой вариант плохой?
есть база
тематика->регулярка->вес
тематика повторяется, регулярка - уник, вес повторяется
берем текст, матчим его по всем тематикам "реглярками", пока не будем учитывать кол-во а просто будем считать веса и прибавлять к соответствуещей тематике.
собираем тематики и выбираем максимальный результат

Lexicon · 23.12.2014

да тут как бы проблема исключительно в том что с этой верхушкой потом делать
ну вот будет там допустим

котики
няши
усы
тапочек
пожрать
холодильник

Это конечно условный пример - но как вот из этих слов понять что текст о привольной жизни котиков или о невзгодах холодильников?

Lexicon · 23.12.2014

LexxWork сказал(а):
почему такой вариант плохой?
есть база
тематика->регулярка->вес
тематика повторяется, регулярка - уник, вес повторяется
берем текст, матчим его по всем тематикам "реглярками", пока не будем учитывать кол-во а просто будем считать веса и прибавлять к соответствуещей тематике.
собираем тематики и выбираем максимальный результат

Для данной модели необходимо иметь заранее готовую базу тематик и реперных слов...

Severip дайте какой нибудь текст я вам покажу верхушку))))

Lexicon · 23.12.2014

Вот список слов отсортированный в порядке убывания в нормальной форме без чистки от стоп слов и прочего

Код:

в - 12
на - 8
и - 7
с - 6
быть - 6
по - 4
1 - 4
валютный - 4
курс - 3
что - 3
не - 3
до - 3
продажа - 3
миллиард - 2
он - 2
накопить - 2
первый - 2
госкомпания-экспортёр - 2
мочь - 2
группа - 2
российский - 2
о - 2
долларов, - 2
рубля. - 2
образ - 2
от - 2
правительство - 2
декабря, - 2
рынок - 2
цена - 2
такой - 2
также - 2
они - 2
порядок - 2
допустить - 1
недостаточный - 1
«коммерсанта», - 1
сведение - 1
появляться - 1
официально - 1
большой - 1
часть - 1
воронин. - 1
60 - 1
пресс-конференция - 1
действие - 1
чтобы - 1
(около - 1
больший - 1
специальный - 1
позволить - 1
один - 1
минфина, - 1
фсб - 1
договориться - 1
текущий - 1
обязать - 1
(подразделение - 1
ситуация - 1
вице-премьер - 1
идти - 1
(«газпром», - 1
— - 1
нефть - 1
валюты, - 1
президент - 1
2014 - 1
глава - 1
следующий - 1
весь - 1
крупный - 1
заявил, - 1
валюты. - 1
день - 1
для - 1
обсуждать - 1
центробанком. - 1
18 - 1
около - 1
март - 1
2015 - 1
позиция - 1
представитель - 1
владимир - 1
«роснефть», - 1
стабильный - 1
путин - 1
дополнительно - 1
нея - 1
остаться - 1
«газпрома» - 1
40-50 - 1
согласовать - 1
директивы, - 1
порядке. - 1
включить - 1
даже - 1
после - 1
23 - 1
стабилизировать - 1
почти - 1
однако - 1
ежедневно - 1
рф - 1
управление - 1
производитель - 1
превышать - 1
реализовываться - 1
писать - 1
госкомпания - 1
«зарубежнефть» - 1
россия - 1
октября. - 1
падение - 1
уровня, - 1
уровень - 1
игорь - 1
тем, - 1
скачок - 1
необходимость - 1
рынка, - 1
25 - 1
пять - 1
процент - 1
компания-экспортёр - 1
цб - 1
очередь - 1
распоряжение - 1
экономический - 1
оценка - 1
издания, - 1
соответствие - 1
продавать - 1
смоленский - 1
выручка - 1
вторник, - 1
премьер-министр - 1
указать - 1
«кристалл») - 1
октябрь - 1
мера - 1
это - 1
размер - 1
укрепиться, - 1
баррель - 1
заставлять - 1
сохранение - 1
экспортеров, - 1
данные - 1
оборота, - 1
минэкономики, - 1
обязательный - 1
отмечать - 1
ритмичный - 1
источник - 1
долларов) - 1
экспортёр - 1
предположил, - 1
ведущий - 1
два - 1
дмитрий - 1
актив - 1
росфинмониторинг - 1
руководитель - 1
кабмина - 1
ход - 1
года. - 1
за - 1
17 - 1
медведев - 1
центробанка. - 1
год - 1
оказаться - 1
40 - 1
«к» - 1
«коммерсантъ». - 1
виктор - 1
эксперты. - 1
войти - 1
при - 1
составлять - 1
рабочий - 1
алроса, - 1
доллар - 1
из - 1
служба - 1
участник - 1
удержания, - 1
графиком, - 1
отказаться - 1
«роснефти». - 1
контролировать - 1
показатель - 1
средство - 1
случай - 1
довести - 1
структура - 1
речь - 1
существование - 1
дочерний - 1
декабрь - 1
шуваловым. - 1
бриллиант - 1
фнс, - 1
начальник - 1
валюта - 1
смочь - 1
месяц - 1
ближний - 1
безопасности) - 1
нынешний - 1

я вот не вижу как из этого венигрета выдернуть тематику)))

LexxWork · 23.12.2014

поэтому нужна база ))
конечно лучше написать софт который бы хавал текст с предопределенной тематикой и регулировал веса для нч слов отностилеьно других статей...
через какое-то время набралось бы нужное количество тематик с которымы можно было бы работать

Lexicon · 23.12.2014

Вот почистил от откровенного хлама типа
{'NPRO', 'ADVB', 'PRED', 'PREP', 'CONJ', 'PRCL', 'INTJ'}

Код:

быть - 6
1 - 4
валютный - 4
продажа - 3
курс - 3
накопить - 2
порядок - 2
госкомпания-экспортёр - 2
первый - 2
декабря, - 2
миллиард - 2
российский - 2
рынок - 2
рубля. - 2
долларов, - 2
мочь - 2
образ - 2
такой - 2
группа - 2
правительство - 2
цена - 2
владимир - 1
вице-премьер - 1
«коммерсантъ». - 1
текущий - 1
экспортёр - 1
управление - 1
бриллиант - 1
включить - 1
17 - 1
соответствие - 1
октябрь - 1
октября. - 1
2015 - 1
премьер-министр - 1
руководитель - 1
ход - 1
существование - 1
крупный - 1
кабмина - 1
«зарубежнефть» - 1
росфинмониторинг - 1
нефть - 1
валюты. - 1
медведев - 1
(«газпром», - 1
войти - 1
центробанком. - 1
следующий - 1
случай - 1
эксперты. - 1
один - 1
обязать - 1
процент - 1
«к» - 1
фнс, - 1
большой - 1
заставлять - 1
сохранение - 1
оборота, - 1
года. - 1
россия - 1
начальник - 1
«кристалл») - 1
долларов) - 1
смоленский - 1
дочерний - 1
день - 1
шуваловым. - 1
составлять - 1
40-50 - 1
путин - 1
«коммерсанта», - 1
порядке. - 1
президент - 1
фсб - 1
уровня, - 1
ритмичный - 1
год - 1
специальный - 1
пять - 1
обязательный - 1
укрепиться, - 1
весь - 1
остаться - 1
отмечать - 1
стабильный - 1
тем, - 1
речь - 1
сведение - 1
25 - 1
выручка - 1
компания-экспортёр - 1
контролировать - 1
средство - 1
служба - 1
оказаться - 1
недостаточный - 1
цб - 1
ведущий - 1
40 - 1
стабилизировать - 1
18 - 1
допустить - 1
ситуация - 1
идти - 1
продавать - 1
2014 - 1
мера - 1
оценка - 1
источник - 1
довести - 1
воронин. - 1
договориться - 1
согласовать - 1
удержания, - 1
действие - 1
вторник, - 1
очередь - 1
распоряжение - 1
23 - 1
графиком, - 1
необходимость - 1
валюта - 1
безопасности) - 1
«роснефти». - 1
рынка, - 1
директивы, - 1
60 - 1
— - 1
(подразделение - 1
экспортеров, - 1
отказаться - 1
превышать - 1
баррель - 1
рабочий - 1
актив - 1
данные - 1
появляться - 1
пресс-конференция - 1
«роснефть», - 1
участник - 1
госкомпания - 1
показатель - 1
игорь - 1
«газпрома» - 1
падение - 1
уровень - 1
смочь - 1
указать - 1
больший - 1
минэкономики, - 1
издания, - 1
размер - 1
март - 1
часть - 1
доллар - 1
валюты, - 1
нынешний - 1
глава - 1
ближний - 1
центробанка. - 1
минфина, - 1
дмитрий - 1
позволить - 1
два - 1
алроса, - 1
структура - 1
производитель - 1
реализовываться - 1
представитель - 1
писать - 1
скачок - 1
заявил, - 1
виктор - 1
предположил, - 1
экономический - 1
декабрь - 1
нея - 1
обсуждать - 1
рф - 1
месяц - 1
позиция - 1

Lexicon · 23.12.2014

Елки))) ну можно конечно))) это просто скрипт на коленке) если надо можно как угодно данные обработать)))

Код:

#coding: utf-8
import pymorphy2
m = pymorphy2.MorphAnalyzer()
collection = {}
vv = 'Правительство РФ договорилось с ведущими госкомпаниями-экспортерами о продаже в ближайшие два месяца большей части накопленной валюты. Таким образом на рынке ежедневно будет появляться дополнительно около 1 миллиарда долларов, что составляет порядка 25 процентов от его оборота, пишет во вторник, 23 декабря, «Коммерсантъ». 18 декабря, по данным издания, Кабмин обязал пять крупнейших госкомпаний-экспортеров («Газпром», «Роснефть», АЛРОСА, «Зарубежнефть» и производителя бриллиантов — смоленское ПО «Кристалл») и их дочерние структуры довести до 1 марта 2015 года размер валютных активов до уровня, не превышающего показатель на 1 октября 2014 года. Реализовываться распоряжение будет в соответствии с графиком, согласованным с Центробанком. Официально в госкомпаниях отказались обсуждать существование директивы, источник в одной из них предположил, что речь идет о продаже почти всей валюты, накопленной после 1 октября. По оценке участников валютного рынка, таким образом на рынке может оказаться порядка 40-50 миллиардов долларов, в первую очередь от «Газпрома» и «Роснефти». Это позволит стабилизировать ситуацию с курсом рубля. В случае падения цен на нефть до 40 долларов за баррель мера будет недостаточной для его удержания, однако при сохранении цен на нынешнем уровне (около 60 долларов) курс российской валюты сможет остаться на текущих позициях и даже укрепиться, отмечают эксперты. Контролировать действия экспортеров, по сведениям «Коммерсанта», будет специальная рабочая группа во главе с первым вице-премьером Игорем Шуваловым. В группу также вошли представители Минфина, Минэкономики, ФНС, Росфинмониторинга и Центробанка. Также в нее может быть включен начальник управления «К» (подразделение службы экономической безопасности) ФСБ Виктор Воронин. 17 декабря премьер-министр Дмитрий Медведев указал руководителям компаний-экспортеров на необходимость ритмичной и стабильной продажи валютных средств с тем, чтобы не допустить скачков курса рубля. На следующий день президент России Владимир Путин в ходе большой пресс-конференции заявил, что правительство и ЦБ не будут заставлять российских экспортеров продавать валютную выручку в обязательном порядке.'
words = vv.split(' ')
needles = {'NPRO', 'ADVB', 'PRED', 'PREP', 'CONJ', 'PRCL', 'INTJ'}
for x in words:
    #x = m.parse(x)[0].normal_form
    x = m.parse(x)[0]
    word = x.normal_form
    typ = x.tag.POS
    if not typ in needles:
        if word in collection:
            collection[word] += 1
        else:
            collection[word] = 1
srt = sorted([(x, collection[x]) for x in collection], key = lambda x:x[1], reverse=True)
for x in srt:
    print('%s - %s' % (x[0],  x[1]))

Lexicon · 23.12.2014

мммм вообще на самом деле вариант, все равно не понятно, как упаковывать тексты в человекопонятное - "Про котиков" но если взять ваш метод и немного его доработать добавив % вероятности вхождения одной группы в другую то получатся довольно большие папки про некоторые метки разом, которые практически наверняка будут тематически очень близки.

LexxWork · 23.12.2014

допустим у нас есть 5 текстов из определенной тематики
мы можем найти в них наиболее часто встречающиеся слова, выставляем им веса в зависимости от частоты.
берем друге 5 текстов с другой тематикой, делаем тоже самое
...
проводим анализ по пресекающимся ключевикам из разных тематик и понижаем их вес до соотв. уровня в зависимости от частоты пересечений.
все это в идеале когда слова приведены к граматическому началу (хотябы без окончаний)
вобще мне кажется я рассматриваю вариант когда тематики заданы изначально. то есть мы выбираем тематику из конечного множества тематик.

Lexicon · 23.12.2014

в общем наметилось два методологических подхода)))) мне вот ближе приемы кластеризации а вам классификация))))

7make · 23.12.2014

вы начните с изучения предметной области...
для любых семантических действий над текстами, первым шагом нужно снимать омонимию.
все слова приводить к нормальной форме.

Lexicon · 23.12.2014

как раз выше я приводил пример скрипта в котором производится эта процедура при помощи библиотеки pymorphy2)))

Пы.Сы. а хотя да))) накосячил я с точками и запятыми да и прочими знаками препинания на концах слов)

Алгоритм определения тематики статьи

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)