Помощь с регулярками (от 2 до 20 слов в блоке)

Romanuss

Client
Регистрация
15.03.2014
Сообщения
26
Благодарностей
3
Баллы
3
Привет всем.
Нужна помощь, за готовое решение без проблем заплачу.

1) Суть такая, есть блоки Div или Span.
это могут быть как:
<div class="xxx">слово слово</div>
так и:
<div>слово
слово слово
</div>
или:
<div>слово
слово <div><a>слово</a></div>
</div>
2) Нужно выделить блоки, где содержимое от 2 до 20 (образно) слов. Соответственно могут быть как в 1 строку, так и в несколько строк. Брать от меньшего блока и чекать всё.

Грязные списки для поиска большие (от 20к строк)
Решение в идеале на C# (но и JS как вариант, просто насколько известно C# выигрывает по скорости, а она крайне важна здесь).

Моё решение пока "в лоб":
1) Анализ каждой строки (склеиваем строки, чтобы был закрытый тег div/span).
2) Считаем слова внутри
3) Удаляем, если не вписывается в границы.
4) ОЧЕНЬ долгая работа...
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)