1 место Универсальный экстрактор™ контента (основной статьи страницы)

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 856
Баллы
113
А как, ты говорил, он обновляться будет? За счет какой-то внешней библиотеки?
Да :-)

Заметил, правда, что он некоторые тексты все-таки режет, но что уж тут, либо скорость, либо качество
Где-то может неправильно определить контент, это нормально - везде есть ошибки, идеального алгоритма нету (я про это начал свой первый пост с отсылкой на видео в моем блоге).

400 текстов за 20 минут - найз :D
В пол потока парсил? Очень долго что-то.
 

jcknick

Client
Регистрация
10.05.2013
Сообщения
154
Благодарностей
9
Баллы
18
"Донор" заковыристый, наверное :-) Не только простые посты.
 

iamnm

Client
Регистрация
15.01.2020
Сообщения
7
Благодарностей
1
Баллы
3
Очень и очень крутая вещь, работает как надо :ay:
 
  • Спасибо
Реакции: Lord_Alfred

intagens

Client
Регистрация
28.09.2015
Сообщения
207
Благодарностей
31
Баллы
28
@Lord_Alfred подскажи, а вот такие элементы шаблон не вычищает?



вот что получаем в тексте на выходе

 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 856
Баллы
113
Регистрация
23.03.2015
Сообщения
1 124
Благодарностей
656
Баллы
113
У меня шаблоны Зены лежат на отдельном диске(f:\) в cmd не получается зайти в папку на диске F. Это можно обойти или шаблон обязательно должен лежать на диске С:?

up:
Перенёс папку на диск С, но теперь при попытке установить зависимость получаю ошибку:
can't load package: package github.com/urfave/cli: no Go files in C:\Users\serov\go\src\github.com\urfave\cli

программы установил.
 
Последнее редактирование:

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 856
Баллы
113
У меня шаблоны Зены лежат на отдельном диске(f:\) в cmd не получается зайти в папку на диске F. Это можно обойти или шаблон обязательно должен лежать на диске С:?
Не обязательно, просто в cmd переход в другой диск выполняется с помощью команд:
Код:
F:
cd zenno\readability
Перенёс папку на диск С, но теперь при попытке установить зависимость получаю ошибку:
can't load package: package github.com/urfave/cli: no Go files in C:\Users\serov\go\src\github.com\urfave\cli
1. Попробуй закрыть/открыть cmd или перезагрузить систему.

2. Если не поможет, то покажи:
Bash:
echo %PATH%

echo %GOPATH%
 
  • Спасибо
Реакции: KolkaPetkinSyn
Регистрация
23.03.2015
Сообщения
1 124
Благодарностей
656
Баллы
113

Вложения

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 856
Баллы
113
Всё ок по этим командам (там прописаны пути до go).

Попробуй через VPN установить зависимости. Вдруг у тебя github заблокирован провайдером.
 
  • Спасибо
Реакции: KolkaPetkinSyn
Регистрация
23.03.2015
Сообщения
1 124
Благодарностей
656
Баллы
113
Всё ок по этим командам (там прописаны пути до go).

Попробуй через VPN установить зависимости. Вдруг у тебя github заблокирован провайдером.
VPN мне помог. . Первое зависимость не устанавливается. Вторая зависимость проходит
 

санчил

Client
Регистрация
15.04.2016
Сообщения
319
Благодарностей
55
Баллы
28
приветствую!
 
Последнее редактирование:

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 856
Баллы
113
  • Спасибо
Реакции: KolkaPetkinSyn
Регистрация
23.03.2015
Сообщения
1 124
Благодарностей
656
Баллы
113
  • Спасибо
Реакции: Lord_Alfred

Sokol

Client
Регистрация
20.01.2020
Сообщения
25
Благодарностей
8
Баллы
3

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 856
Баллы
113

Sokol

Client
Регистрация
20.01.2020
Сообщения
25
Благодарностей
8
Баллы
3
Спасибо. Я и так про них знаю.
 

karab1n

Client
Регистрация
24.05.2018
Сообщения
8
Благодарностей
0
Баллы
1
Подскажите, куда прописывать параметр url?
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 856
Баллы
113

udder

Client
Регистрация
28.03.2017
Сообщения
595
Благодарностей
118
Баллы
43
Может кто - то прикрутить возможность парсить статьи из карты сайта сайта?
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 856
Баллы
113
Может кто - то прикрутить возможность парсить статьи из карты сайта сайта?
Из sitemap.xml ?
Если там карта не многоуровневая, то не сложно получить все ссылки в список.

Что-то вроде (писал по памяти, могут быть ошибки):
C#:
List<string> links = new List<string>();

foreach (dynamic elem in project.Xml.urlset.url) {
    links.Add(elem.loc);
}

if(links.Count == 0) {
    throw new Exception("Список links пустой!");
}

project.Lists["links_lst"].AddRange(links);
 
  • Спасибо
Реакции: udder

Mysurik

Client
Регистрация
29.12.2019
Сообщения
126
Благодарностей
12
Баллы
18
День добрый! А может кто то наглядно показать от А до Я как это чудо настроить не разбирающимся? Я вот лично не чего не понял, я не программист а по юзать такую прелесть хочется.
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 941
Благодарностей
4 333
Баллы
113
А может кто то наглядно показать от А до Я как это чудо настроить не разбирающимся?
Статья и есть от А до Я. У вас 2 пути - или становиться хотя бы немного программистом или искать другие варианты извлечения текстовки из статей - их тоже не мало.
 
  • Спасибо
Реакции: Mysurik

Mysurik

Client
Регистрация
29.12.2019
Сообщения
126
Благодарностей
12
Баллы
18
Статья и есть от А до Я. У вас 2 пути - или становиться хотя бы немного программистом или искать другие варианты извлечения текстовки из статей - их тоже не мало.
Понял отстал. Извините за глупый вопрос.
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 941
Благодарностей
4 333
Баллы
113
Понял отстал. Извините за глупый вопрос.
Если вам нужен просто удобный и не сложный инструмент для парсинга и извлечения контента, статей, то возьмите Х-парсер (реф) нашего разработчика, который используется тысячами вебмастеров.
 
  • Спасибо
Реакции: Mysurik

Mysurik

Client
Регистрация
29.12.2019
Сообщения
126
Благодарностей
12
Баллы
18
Если вам нужен просто удобный и не сложный инструмент для парсинга и извлечения контента, статей, то возьмите Х-парсер (реф) нашего разработчика, который используется тысячами вебмастеров.
Спасибо но я воздержусь. Удачи вам !
 

jcknick

Client
Регистрация
10.05.2013
Сообщения
154
Благодарностей
9
Баллы
18
Вернулся после пары десятка прогонов :-) Отличная штука - охотиться за текстами с 90% точностью без сложных страниц, но (как обычно, собсна)... Как настроить так, чтобы заголовки тянулись тоже - в какую-нибудь переменную? Я подкрутил, чтобы результаты в таблицу тянулись, но без заголовков, которые обычно "h1", приходится дополнительно прогонять список урлов... с дополнительной html чисткой - процесс почти удваивается в продолжительности :/
 
  • Спасибо
Реакции: Lord_Alfred

Mysurik

Client
Регистрация
29.12.2019
Сообщения
126
Благодарностей
12
Баллы
18
Вроде не подписывался на эту тему. Зачем мне уведомления слать на почту не понимаю:au:
 

daVinchi

Client
Регистрация
11.01.2019
Сообщения
59
Благодарностей
66
Баллы
18
Как настроить так, чтобы заголовки тянулись тоже - в какую-нибудь переменную?
Вариант 1. Добвавить в readability_cli.go (и заново перекомпилировать!):
Код:
dstTxtFile.WriteString("<h1>")
dstTxtFile.WriteString(article.Title)
dstTxtFile.WriteString("</h1>\n")
Вариант 2. В подпроекте readability.xmlz в переменную response_body сохраняется сохраняется "тело" страницы. Оттуда и можно вытащить заголовок h1, например регуляркой.
 
  • Спасибо
Реакции: Lord_Alfred

Mysurik

Client
Регистрация
29.12.2019
Сообщения
126
Благодарностей
12
Баллы
18
Как отключить уведомления?:ah::au:
 

Mysurik

Client
Регистрация
29.12.2019
Сообщения
126
Благодарностей
12
Баллы
18
Вот я валенок то тупорылый:an: я же ее отслеживать поставил, когда голосовал. Админы удалите пожалуйста мою писанину с данной темы. И ты автор извини что натоптал тут.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)