4 место Быстрый парсер RU + ENG текстового контента на Get-запросах

d4k · 28.12.2018

Шаблон супер. Орка, спасибо. Есть вопрос по кодировке - пытаюсь парсить азиатские всякие сайты через boilerpipe (там везде utf- 8-)

, но в результатах пустота.
Пример таких сайтов:
bk8thai.com
ebet88.com

d4k · 28.12.2018

Было бы супер. Т.к. активно работаю с Азиатскими сайтами и очень не хватает в данном шабе простой переконвертации... Парсит нормально, но на выходе уже ???? вместо иероглифов)))

d4k · 08.01.2019

orka13 сказал(а):
1. Шаблон рассчитан только на 2 языка текстовки, что указано в заголовке темы, поэтому под другие алфавиты\языки надо править регулярки и правила нахождения популярных слов.
2. Вижу шаблон коряво все-же проводить конвертацию кодировки для нестандартных языков (иероглифов и т.д.), возвращая тупо «?????» вместо нестандартных букв, хз смогу ли исправить, ибо тут и так нет смысла в них.
3. В версии «1.02» вижу есть моя ошибка с дублированием переменной урл {-Variable.url-} \ {-Variable.Url-}.

До нового года попробую погонять и выкатить обновленную версию.

Orka, С прошедшими! Не было времени глянуть? Намекните хотя бы куда копать и где нужно внести правки, чтобы с кодировкой нормальные символы были а не "????". Заранее спасибо!

Сибиряк · 15.01.2019

@orka13
Салют!
Почему то пропускает строки при фильтрации текста:

Код:

Please complete the security check to access www.hoosiersportsreport.com.

Код:

// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова:
regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.IgnoreCase );

В конструкторе регулярок работает. Находит строку. А в ПМ нет.
Что может быть?

ssXXXss · 15.01.2019

попробуй самое короткое совпадение
.*?

bad robot · 16.01.2019

Спасибо за шаблон. Если можно, сделайте в будущих версиях, чтобы он понимал кириллические ссылки вида %D0%B0%D0%BA%D0%B0%D1%84%D0%B8%D1%81%D1%82

bismark132 · 26.05.2019

Я так понял этот шаблон парсит только текстовую часть страницы, то есть описание и отфильтровывает текст из шапки, сайдбаров и футера, правильно?

Сибиряк · 26.05.2019

bismark132 сказал(а):
Я так понял этот шаблон парсит только текстовую часть страницы, то есть описание и отфильтровывает текст из шапки, сайдбаров и футера, правильно?

Он кажется весь текст парсит который проходит фильтры.

bismark132 · 26.05.2019

Понятно, тогда пробуем на практике.)

Поиск

4 место Быстрый парсер RU + ENG текстового контента на Get-запросах

d4k

Client

orka13

Client

d4k

Client

d4k

Client

orka13

Client

Сибиряк

Client

orka13

Client

ssXXXss

Client

bad robot

Client

bismark132

Client

Сибиряк

Client

bismark132

Client

orka13

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)