Сортировка текстовых документов

mishanya9002

Client
Регистрация
04.01.2019
Сообщения
112
Благодарностей
7
Баллы
18
Добрый день, есть около тысячи текстовых документов, которые 70% на Русском языке, а остальные на иностранных языках, причем это не только Английский язык но и множество Европейских языков (Немецкий, Чешский, Сербский и т.д) , можно ли силами зеннопостера рассортировать как-то это все по двум папкам с Русским языком и Иностранными ?
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 605
Благодарностей
4 595
Баллы
113
регуляркой парсишь кириллицу в список. Сверяешь количество символов в списке к общему количеству символов в файле. По какой-то процентной планке определяешь, что кириллицы достаточно, чтобы считать текстовик русским
 

mishanya9002

Client
Регистрация
04.01.2019
Сообщения
112
Благодарностей
7
Баллы
18
регуляркой парсишь кириллицу в список. Сверяешь количество символов в списке к общему количеству символов в файле. По какой-то процентной планке определяешь, что кириллицы достаточно, чтобы считать текстовик русским
А как составить эту регулярку на кириллицу ?
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 605
Благодарностей
4 595
Баллы
113

mishanya9002

Client
Регистрация
04.01.2019
Сообщения
112
Благодарностей
7
Баллы
18

Шива

Client
Регистрация
05.02.2018
Сообщения
1 084
Благодарностей
339
Баллы
83
Как вариант бингом или яндексом смотреть
 

mishanya9002

Client
Регистрация
04.01.2019
Сообщения
112
Благодарностей
7
Баллы
18

orka13

Client
Регистрация
07.05.2015
Сообщения
2 159
Благодарностей
2 159
Баллы
113
Ну раньше в онлайн-переводчики можно было загружать часть документа и некоторые определяли какой язык текста. Но ТСу судя по его ТЗ хватит просто отделить регуляркой тексты с кириллицой от латиницы. А вот если там кроме РУ-языка еще будет украинский, белорусский и т.д., то вот тогда понадобятся инструменты для точного определения.
 

mishanya9002

Client
Регистрация
04.01.2019
Сообщения
112
Благодарностей
7
Баллы
18
Ну раньше в онлайн-переводчики можно было загружать часть документа и некоторые определяли какой язык текста. Но ТСу судя по его ТЗ хватит просто отделить регуляркой тексты с кириллицой от латиницы. А вот если там кроме РУ-языка еще будет украинский, белорусский и т.д., то вот тогда понадобятся инструменты для точного определения.
хорошо, спасибо
 

sashf1999

Client
Регистрация
04.01.2019
Сообщения
37
Благодарностей
11
Баллы
8
Еще конечно можно получить средствами С# все файлы с папки, сделать допустим на поиск по массиву из русских букв и прогнать просто напросто массив, ну и потом просто все файлы с массива перенести в папку, ничего трудного
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)