Вопрос по обработке текста

rostonix · 01.07.2014

Код:

(?<=<domain>).*?(?=</domain>)

rostonix · 01.07.2014

Моя регулярка другая

Sergodjan · 01.07.2014

насколько я понял нужно вот так:

и потом список объединить в переменную..

Lexicon · 01.07.2014

Немножко попиарю, если никто не против, мой любимый сервис - xmlproxy.ru
А что касается анализа выдачи в целом - поделитесь методами наблюдений....

Lexicon · 01.07.2014

гм... ну я из XML получаю средневзвешенные позиции, выделение основного конкурента, неожиданные выборосы в топ по ВЧ, кластеризация зарпосов... чуточку через попу, но работает все равно))))
Ну и опять же таки да - еще пилю долго и лениво, но таки анализатор динамики весов внутренних факторов, опять же поиск системных выбросов и т.п...)))))

Lexicon · 01.07.2014

ну немножко да))) вот есть у вас 3000 запросов на одну тему, и нужно вам их как то распределить по страницам)))) и вот как раз исопльзуя наработки яши в семантике и морфологии можно их группировать не по вхождениям слов, а по фактическому смыслу. Есть конечно и косяки... но я лучше час посплю, пока скрипт работает, чем буду час семантику руками разгребать.

Lexicon · 01.07.2014

не совсем)) определение релевантных страниц через яндекс возможно, если он их уже проиндексировал и знает что где. А вот, допустим лепите вы дор... и у вас ключей 100 000 и хотелось бы их упаковать так, чтобы яша не просек, что у нас 1 страница 1 ключ и рядом находится вторая такая же страница но чуть в другой форме) а в остальном да

Поиск

Вопрос по обработке текста

money4honey

Client

Вложения

rostonix

Известная личность

money4honey

Client

rostonix

Известная личность

money4honey

Client

Sergodjan

Administrator

money4honey

Client

money4honey

Client

Lexicon

Client

money4honey

Client

Lexicon

Client

money4honey

Client

Lexicon

Client

money4honey

Client

Lexicon

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)