Вхождения ключевого слова в заголовок

RuslanAliev

Client
Регистрация
24.03.2015
Сообщения
45
Благодарностей
5
Баллы
8
Уважаемые участники форума!
Прошу помощи: требуется сделать так, чтобы спрарсенный заголовок проверялся через список ключевых слов, если хоть одно ключевое слово имеется в заголовке, тогда заголовок забирался.

Сделал следующий вариант: есть список ключевых слов =>парсится заголовок=>через обработку текста, через regex ищется вхождение ключей в заголовок.
И тут проблема - если укажу (в списке ключевых слов) не слово, а полностью заголовок - то все срабатывает, а, соответственно, на одно только ключевое слово не срабатывает - хотя оно имеется в заголовке.
Помогите - что я не так делаю?
 

RuslanAliev

Client
Регистрация
24.03.2015
Сообщения
45
Благодарностей
5
Баллы
8

Вложения

RuslanAliev

Client
Регистрация
24.03.2015
Сообщения
45
Благодарностей
5
Баллы
8
Насколько я понимаю в кубике "обрабтка текста, regexp", где {-Variable.zagolovok-} нужно что-то прописать, что укажет на вхождение в условие при совпадении хотя бы одного слова. А что прописать не знаю(
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 167
Благодарностей
2 169
Баллы
113
ищем в "спрарсенный заголовок" регулярков слова на вхождения. Регулярка должна иметь разделители "|" :
Код:
спрарсенный|заголовок|и|туча|слов
 
  • Спасибо
Реакции: RuslanAliev

RuslanAliev

Client
Регистрация
24.03.2015
Сообщения
45
Благодарностей
5
Баллы
8
Заработало - спасибо огромное)
 

RuslanAliev

Client
Регистрация
24.03.2015
Сообщения
45
Благодарностей
5
Баллы
8
ищем в "спрарсенный заголовок" регулярков слова на вхождения. Регулярка должна иметь разделители "|" :
Код:
спрарсенный|заголовок|и|туча|слов
Заработало - спасибо огромное)
 

RuslanAliev

Client
Регистрация
24.03.2015
Сообщения
45
Благодарностей
5
Баллы
8
ищем в "спрарсенный заголовок" регулярков слова на вхождения. Регулярка должна иметь разделители "|" :
Код:
спрарсенный|заголовок|и|туча|слов
Другой вопрос появился - можете поможете:
При сравнивании слов из списка ключевых слов и слов заголовка нужно, чтобы слова были одинаковые, т.е. если в слове из заголовка будет другое окончание, чем в слове из списка ключевых слов - то тогда просто проигнорируется. Как сдлеать так, чтобы, к примеру, игнорировались окончания или сравнивалось по корню слова?

Например:
1. Слово ключевое - Москва
2. В заголовке "Москве" - сейчас это игнорируется.
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 167
Благодарностей
2 169
Баллы
113
Другой вопрос появился - можете поможете:
При сравнивании слов из списка ключевых слов и слов заголовка нужно, чтобы слова были одинаковые, т.е. если в слове из заголовка будет другое окончание, чем в слове из списка ключевых слов - то тогда просто проигнорируется. Как сдлеать так, чтобы, к примеру, игнорировались окончания или сравнивалось по корню слова?

Например:
1. Слово ключевое - Москва
2. В заголовке "Москве" - сейчас это игнорируется.
Хз. Может кто подскажет готовое решение. А то у меня только 1 идея:
В зенке кубиками с кодом C# привести слова, используемые в сравнении к базовому виду (лемму), и потом сравнить ети их леммы. Подобное используется при «неточном поиске» в БД, по крайней мере в SQLite FTS5 такое встречал. Надо читать маны, примеры, пробовать подключать такую схему.
 
  • Спасибо
Реакции: RuslanAliev

RuslanAliev

Client
Регистрация
24.03.2015
Сообщения
45
Благодарностей
5
Баллы
8
ри сравнивании слов из списка ключевых слов и слов заголовка нужно, чтобы слова были одинаковые, т.е. если в слове из заголовка будет другое окончание, чем в слове из списка ключевых слов - то тогда просто проигнорируется. Как сдлеать так, чтобы, к примеру, игнорировались окончания или сравнивалось по корню слова?
Спасибо, сделаю отдельную тему - может кто-то знает.
 

smartwisard

Client
Регистрация
17.01.2017
Сообщения
824
Благодарностей
82
Баллы
28
В зенке кубиками с кодом C# привести слова, используемые в сравнении к базовому виду (лемму), и потом сравнить их леммы.
Разве лемматизаторами не проще сделать?
bez-bubna.com/free/lemma.php
По одному слову/ все сразу.

Можно, собрав слов достаточно по теме, при гуглении site:website все превратить в минус слова, кроме входящих в заголовок.
 
Последнее редактирование:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)