Вопрос по обработке текста

money4honey

Client
Регистрация
19.06.2014
Сообщения
144
Благодарностей
46
Баллы
28
Есть файл в xml формате,
и мне нужно получить из него только то, что находится внутри тегов <domain></domain> см. скриншот (в файле всего 30 совпадений)
как это сделать используя regex?
насколько я понимаю нужно использовать номера совпадений.. но пока не могу разобраться.
 

Вложения

Последнее редактирование:

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 707
Баллы
113
Код:
(?<=<domain>).*?(?=</domain>)
 
  • Спасибо
Реакции: money4honey

money4honey

Client
Регистрация
19.06.2014
Сообщения
144
Благодарностей
46
Баллы
28
Код:
(?<=<domain>).*?(?=</domain>)
попробовал выражение - теперь уже берет текст, но при этом захватывает весь массив, т.е. начиная от первого тега <domain> до последнего.

а мне нужно чтобы захватывалось только то, что внутри каждого отдельного тега <domain> (всего 30 доменов)

то есть на выходе я хочу получить список с 30 доменами, каждый с новой строки.
вот так выглядит сейчас regex

насколько я понимаю можно решить этот вопрос при помощи пунктов "одно совпадение" и "номера совпадений"
вариант "Первое" при выводе в список выдает целый масив (скрин выше)
вариант "все" при выводе в список выдает тоже самое.
Также пробовал оставшиеся 2 варианта:
пробовал вставлять переменную с цифрой ({-Variable.Counter-}, к примеру=0) в поле "одно совпадение" - не работает.
номера совпадений пробовал перечислять цифрами через запятую (1,2,3) - не работает.

вопрос в том, как в данном случае получить на выходе список с 30 доменами
 
Последнее редактирование:

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 707
Баллы
113
Моя регулярка другая
 
  • Спасибо
Реакции: money4honey

money4honey

Client
Регистрация
19.06.2014
Сообщения
144
Благодарностей
46
Баллы
28
Моя регулярка другая
блин, точно =) - 1 знак "?" пропустил

вставил эту регулярку - получил список из 30 доменов :-)
rostonix, ты классный, спасибо тебе

для тех, у кого похожая ситуация.
так выглядит правильная регулярка:

на выходе получаются домены:
 
Последнее редактирование:

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 529
Благодарностей
8 711
Баллы
113
насколько я понял нужно вот так:
upload_2014-7-1_22-34-57.png

и потом список объединить в переменную..
 
  • Спасибо
Реакции: money4honey

money4honey

Client
Регистрация
19.06.2014
Сообщения
144
Благодарностей
46
Баллы
28

money4honey

Client
Регистрация
19.06.2014
Сообщения
144
Благодарностей
46
Баллы
28
кстати, это я пытаюсь сделать zenno-шаб под yandex xml - в задумке проверка позиций по ключам и анализ выдачи в целом.
единственный минус этого метода парсинга выдачи - лимиты. с другой стороны - без капчи.
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
891
Баллы
113
Немножко попиарю, если никто не против, мой любимый сервис - xmlproxy.ru
А что касается анализа выдачи в целом - поделитесь методами наблюдений....
 

money4honey

Client
Регистрация
19.06.2014
Сообщения
144
Благодарностей
46
Баллы
28
нормальный такой сервис. покупай - продавай :-) цены вроде не кусачие.
поделитесь методами наблюдений....
использую xml yandex в основном для сбора позиций и анализа конкуренции по ключам, используя запросы вида:
title:"<запрос>"
также получаю из выдачи тайтлы сайтов по искомым запросам и выделяю из них словосочетания.
для автоматизации процесса написал семантический модуль, который делит тайтлы на слова и генерирует из слов все возможные варианты словосочетаний.
как ещё использовать yandex xml я пока не придумал :-) если у вас есть идеи, предложения, буду рад их услышать

кстати, заметил интересную особенность в разметке документов в xml:

в теге <size> находится подсчитанное количество символов без пробелов между тегами <body> в source документа.
а сама основная разметка банальна проста. но стоит обратить внимание на пассажи..
что в title, что в description они разделены на ключевые слова, по которым видимо и ранжируется данная страница.
думаю, следующим шабом под yandex xml напишу именно такой, чтобы выделял пассажи
 
  • Спасибо
Реакции: surrealmix

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
891
Баллы
113
гм... ну я из XML получаю средневзвешенные позиции, выделение основного конкурента, неожиданные выборосы в топ по ВЧ, кластеризация зарпосов... чуточку через попу, но работает все равно))))
Ну и опять же таки да - еще пилю долго и лениво, но таки анализатор динамики весов внутренних факторов, опять же поиск системных выбросов и т.п...)))))
 
  • Спасибо
Реакции: money4honey

money4honey

Client
Регистрация
19.06.2014
Сообщения
144
Благодарностей
46
Баллы
28
спасибо что рассказали о вашем опыте.
да, с xml можно много всего придумать.
анализ внутренних весов - классная вещь.
по таким данным можно и скрипт автоматической линковки написать.

вот только про кластеризацию запросов не понял.
на мой взгляд в том же wordstat они лучше структурированы получаются. или мы говорим о разных вещах?)
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
891
Баллы
113
ну немножко да))) вот есть у вас 3000 запросов на одну тему, и нужно вам их как то распределить по страницам)))) и вот как раз исопльзуя наработки яши в семантике и морфологии можно их группировать не по вхождениям слов, а по фактическому смыслу. Есть конечно и косяки... но я лучше час посплю, пока скрипт работает, чем буду час семантику руками разгребать.
 
  • Спасибо
Реакции: money4honey

money4honey

Client
Регистрация
19.06.2014
Сообщения
144
Благодарностей
46
Баллы
28
ну немножко да))) вот есть у вас 3000 запросов на одну тему, и нужно вам их как то распределить по страницам)))) и вот как раз исопльзуя наработки яши в семантике и морфологии можно их группировать не по вхождениям слов, а по фактическому смыслу. Есть конечно и косяки... но я лучше час посплю, пока скрипт работает, чем буду час семантику руками разгребать.
а.. так вы о такой кластеризации, т.е. это подбор релевантных ключу страниц на основе алгоритма яндекса..
Код:
<запрос> site:site.ru
или
"<запрос>" site:site.ru

если поиск вхождений по тайтлам в пределах сайта:

title:<запрос> site:site.ru
или
title:"<запрос>" site:site.ru

но последнее скорее для проверки оптимизации конкурентов
у агрегаторов же уже реализована такая же плюшка:
добавляешь список ключей и url и они автоматически, на основе выдачи распределяют. (результат экспортируется)
ну там конечно не всё гладко тоже. но я раньше именно таким распределением и пользовался. если сайт уже существует, конечно же :-)
 
Последнее редактирование:

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
891
Баллы
113
не совсем)) определение релевантных страниц через яндекс возможно, если он их уже проиндексировал и знает что где. А вот, допустим лепите вы дор... и у вас ключей 100 000 и хотелось бы их упаковать так, чтобы яша не просек, что у нас 1 страница 1 ключ и рядом находится вторая такая же страница но чуть в другой форме) а в остальном да
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)