Парсинг innertext

SergSh · 31.08.2021

Попробуй так. Только внимательно присмотрись к синтаксису x.InnerText я не пробовал

C#:

 var htmlNodes = htmlDoc.DocumentNode.SelectNodes("//*");

 foreach (string text in htmlNodes.Select(x => x.InnerText.Trim().ToLower()).Distinct().Where(x => !string.IsNullOrEmpty(x)))
 {
    project.SendInfoToLog(text);
 }

Qeludard · 31.08.2021

SergSh сказал(а):
Попробуй так. Только внимательно присмотрись к синтаксису x.InnerText я не пробовал

C#:

var htmlNodes = htmlDoc.DocumentNode.SelectNodes("//*"); foreach (string text in htmlNodes.Select(x => x.InnerText.Trim().ToLower()).Distinct().Where(x => !string.IsNullOrEmpty(x))) { project.SendInfoToLog(text); }

Думаю теперь точно заработает.

Маломальский · 01.09.2021

C#:

var html =
        @"<h1>Header</h1>
           <div>Text1
                 <p>Text2</p>
           Text3</div>";

var htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(html);

var htmlNodes = htmlDoc.DocumentNode.SelectNodes("//*");

var temp = new List<string>();

foreach (string text in htmlNodes.Select(x => Regex.Replace(x.InnerText, @"\s{2,}", " ").Trim()).Where(x => !string.IsNullOrEmpty(x)))
{
    project.SendInfoToLog(text);
    temp.Add(text);
}

var temp2 = new List<string>();

foreach (var t in temp)
{
    temp2.AddRange(t.Split(' '));
}

temp.Clear();
return string.Join(";", temp2.Distinct());

Укороченный вариант

C#:

var html =
        @"<h1>Header</h1>
           <div>Text1
                 <p>Text2</p>
           Text3</div>";

var htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(html);

var temp = htmlDoc.DocumentNode
                .SelectNodes("//*")
                .Select(x => Regex.Replace(x.InnerText, @"\s{2,}", " ").Trim())
                .Where(x => !string.IsNullOrEmpty(x))
                .AsParallel() //удалить, если важен порядок
                .Select(i => i.Split(' '))
                .SelectMany(i => i)
                .Cast<string>()
                .Distinct();

return string.Join(";", temp);

Маломальский · 01.09.2021

1.

Zoron сказал(а):
Есть задача спарсить все innertext'a в коде сайта, но без повторений.

Zoron сказал(а):
Т.е первый div содержит в себе тег <p> и соответственно его innertext.
Кто может подскажет как сделать, чтобы брались только вхождения без повторов. Может можно проверять наличие потомка и углубляться ниже или как-то еще?

2.

Zoron сказал(а):
Мне просто нужно в коде заменить только текста не трогая сам код, а пока не получается..

Совершенно разные задачи, следовательно и решение.
Возможно, если вы более четко сформулируйте задачу и прикрепите живой пример, думаю быстрее получите нужный результат.

Маломальский · 01.09.2021

Думаю, что алгоритм следующий:

Разобрать исходный текст страницы в массив, по закрывающим тегам

[0]<h1>Header
[1]<div>text1
[1][0]<p>text2
[1][1][0]text3

Возможно, можно сделать словарь (именованные индексы), чтобы не потерять обозначение маршрута (для конечного сбора структуры), суть, когда полностью разложите таким образом, перебрав его, игнорируя <TAG> (то есть делаете выжимку текста, если надо замену, пожалуйста), далее вам нужно сделать инверсию, собрать его из глубины.

Поиск

Парсинг innertext

Zoron

Client

SergSh

Client

Qeludard

Новичок

Zoron

Client

Вложения

Маломальский

Client

Zoron

Client

Маломальский

Client

Zoron

Client

Маломальский

Client

Zoron

Client

Zoron

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)