Создать тему  Создать ответ 
Поиск в сканированных словарях
20-09-2014, 18:47    
Сообщение: #61
Teilnehmer

Member
Сообщений: 69
Зарегистрирован: 31.12.12

RE: Поиск в сканированных словарях
(20-09-2014 18:37)Quasus писал(а):  по идеологическим соображениям
А в чём заключаются соображения?
Найти все сообщения
Цитировать это сообщение
20-09-2014, 19:14    
Сообщение: #62
Quasus

Гоф-фурьер
Сообщений: 625
Зарегистрирован: 17.06.12

RE: Поиск в сканированных словарях
По моему убеждению, это суррогат, распространению которого я не хотел бы способствовать.

Я считаю, есть значительная разница в том, открывается ли нужная страница или аппроксимация с точностью пять-десять страниц. В первую очередь психологическая, но даже и техническая: вьюер может подвисать при открывании новых страниц, если он их ещё не загрузил.

Сделать полный индекс не так трудоёмко. Например, если словарь имеет 500 страниц, я бы оценил время индексирования в час. Час поработать и закрыть вопрос навсегда.

Если же индекс составлять динамически, то чтобы для того же словаря получить закладки через 10 страниц, надо выполнить, грубо говоря, 50 поисков. Кто как, а я в течение этих вопросов уже взвыл бы. Индекс получается очень несовершенный. А чтобы получить полный индекс, число поисков должно быть, по-моему, примерно плюс бесконечность. :)

Текущее состояние проектов таково: исходный на питоне не поддерживается, у меня есть неплохо работающий консольный поисковик для линукса, а Агрест начал делать для виндоус с гуи.
Найти все сообщения
Цитировать это сообщение
20-09-2014, 23:22    
Сообщение: #63
Agrest

井蛙 / жабенєтко в керниці
Сообщений: 1556
Зарегистрирован: 08.08.12

 
(20-09-2014 18:25)Teilnehmer писал(а):  Не читал тему целиком, возможно, уже говорилось: есть ли возможность индексировать словарь по ходу использования?
В моей реализации (GUI для Windows) такое планируется, но отодвинуто на далёкое будущее.

В первой версии программа просто будет запускать внешний просмотрщик. А функциональность «отметить, что моё слово на этой странице» можно добавить только тогда, когда я встрою сам просмотрщик в программу (или когда встрою саму программу в просмотрщик, типа SumatraPDF... посмотрим).

(20-09-2014 19:14)Quasus писал(а):  По моему убеждению, это суррогат, распространению которого я не хотел бы способствовать.
По моему разумению, наши индексы сами по себе представляют суррогат по отношению к полностью проиндексированному (т.е. где записано каждое слово) и полностью OCR'ному виду.

И по-моему в этом нет ничего плохого. Никогда нет предела совершенству. Индекс с каждой 10 страницей лучше, чем никакого. Индекс с каждой страницей лучше, чем с каждой десятой. Индекс с каждым словом лучше, чем с каждой страницей. Полный OCR лучше, чем индекс с каждым словом...

Offtop
(20-09-2014 19:14)Quasus писал(а):  распространению которого я не хотел бы способствовать.
Эх, придётся мне ещё и линуксовую версию делать…

(20-09-2014 19:14)Quasus писал(а):  Я считаю, есть значительная разница в том, открывается ли нужная страница или аппроксимация с точностью пять-десять страниц.
Точность аппроксимации можно значительно повысить, если ввести в программы модели языков. То есть даже без индекса мы можем предположить, что в русском словаре слов на букву К будет намного больше, чем слов на букву Ф.

«билингв мусорит в обоих языках — и первом, и втором» © Python
Вебсайт Найти все сообщения
Цитировать это сообщение
20-09-2014, 23:34    
Сообщение: #64
Agrest

井蛙 / жабенєтко в керниці
Сообщений: 1556
Зарегистрирован: 08.08.12

RE: Поиск в сканированных словарях
(20-09-2014 23:22)Agrest писал(а):  Точность аппроксимации можно значительно повысить, если ввести в программы модели языков. То есть даже без индекса мы можем предположить, что в русском словаре слов на букву К будет намного больше, чем слов на букву Ф.
Кстати, такой моделью может выступать любой другой словарь на том же языке! :cool:

Чем больше думаю об этой идее, тем больше она мне нравится.

«билингв мусорит в обоих языках — и первом, и втором» © Python
Вебсайт Найти все сообщения
Цитировать это сообщение
21-09-2014, 14:20    
Сообщение: #65
Quasus

Гоф-фурьер
Сообщений: 625
Зарегистрирован: 17.06.12

RE: Поиск в сканированных словарях
(20-09-2014 23:22)Agrest писал(а):  По моему разумению, наши индексы сами по себе представляют суррогат по отношению к полностью проиндексированному (т.е. где записано каждое слово) и полностью OCR'ному виду.

И по-моему в этом нет ничего плохого. Никогда нет предела совершенству. Индекс с каждой 10 страницей лучше, чем никакого. Индекс с каждой страницей лучше, чем с каждой десятой. Индекс с каждым словом лучше, чем с каждой страницей. Полный OCR лучше, чем индекс с каждым словом...

Надо также учитывать себестоимость.

Проиндексировать все страницы - дёшево, но даёт абсолютно удовлетворительный результат, сравнимый по удобству с такими оболочками как GoldenDict.

Проиндексировать каждую десятую страницу ― да, можно потратить пять минут вместо часа, и получить соответствующий результат. Относительно выигрыш в десять раз, но абсолютно ― порядка часа, разговору больше.

Проиндексировать все слова - на порядок дороже, чем страницы (если допустить порядка десяти слов на странице), при этом я не вижу, каким образом такой индекс может принципиально дать лучшую функциональность.

Полный OCR, во-первых, требует серьёзного программного обеспечения, во-вторых, вычитки, и чем менее мейнстримный язык, тем больше значение вычитки. Например, я не верю, что какая-либо программа адекватно переварит латинский словарь с макронами и бреве, не говоря о древнегреческом. Также пример гуглокниг и archive.org показывает, что качественное распознавание - это непросто и недёшево.

Даже если представить себе отсканированный файл с идеальным текстовым слоем, можно поставить вопрос о том, насколько Ctrl+F более удобно для поиска статей, чем, например, обыкновенный индекс из закладок на каждую страницу.

На самом деле, конечно, вместо скана с текстовым слоем должен фигурировать электронный словарь. И опять же текущие практики показывают, что их создать непросто, даже для Аби лингво. Например, я немало пользовался лингвовским Дворецким и могу сказать, что хотя в целом он удовлетворителен, там всё-таки немало ляпов оцифровки, и в сколько-то спорных случаях необходимо лезть в скан. Или вот их же португальско-русский словарь. Насколько могу судить, он создан на основе "Большого португальско-русского словаря" Феерштейна―Старец, однако это очень покоцанная версия, и сканированный Феерштейн―Старец с индексом, прикрученный к тому же GoldenDict-у, выигрывает. Получается, что аккуратно переносить статьи полностью, вместе с примерами было слишком дорого.

Короче говоря, когда словарь создаётся сразу в электронном виде, получается качественный современный словарь. Чтобы качественно конвертировать бумажный словарь, нужно вложить большой труд, на уровне крупных компаний или университетов.

Также несложные расчёты показывают, что создание в процессе использования даже полного постраничного индекса, не говоря о более сложной оцифровке, практически нереально.

Таким образом, я считаю, что с точки зрения соотношения качество/цена использование отсканированного словаря с постраничным индексом является локальным максимумом.
Найти все сообщения
Цитировать это сообщение
22-09-2014, 03:41    
Сообщение: #66
Agrest

井蛙 / жабенєтко в керниці
Сообщений: 1556
Зарегистрирован: 08.08.12

 
(21-09-2014 14:20)Quasus писал(а):  Проиндексировать все страницы - дёшево,
Ты же сам оцениваешь в час. А если человек не набил руку, то ещё больше. А час — это ого-го!

Я уверен, что большинство пользователей скорее плюнут на нашу программу, если для её использования надо сначала потратить час своего времени. Порог вхождения слишком высокий.

(21-09-2014 14:20)Quasus писал(а):  сравнимый по удобству с такими оболочками как GoldenDict.
Неправда. Нет полнотекстового поиска, нет копирования и вставки, время на загрузку страница (по сравнению с мгновенным показом текста), невозможность мгновенно узнать, есть ли слово в словаре или нет, нет «возможно, вы имели в виду..?», нет возможности выставить удобный для чтения шрифт... Да почти ничего нет. :)

(21-09-2014 14:20)Quasus писал(а):  Проиндексировать все слова - на порядок дороже, чем страницы (если допустить порядка десяти слов на странице), при этом я не вижу, каким образом такой индекс может принципиально дать лучшую функциональность.
Из мейнстримных функций это даёт «возможно, вы имели в виду <правильное написание>?».

Кроме того, возможность показать наличие слова в словаре очень удобна, если программа поддерживает несколько словарей: можно сразу отметить те из них, в которых слово есть.

(21-09-2014 14:20)Quasus писал(а):  Таким образом, я считаю, что с точки зрения соотношения качество/цена использование отсканированного словаря с постраничным индексом является локальным максимумом.
Добавь число заинтересованных людей в соотношение, и ты увидишь, что локальный максимум варьируется от словаря к словарю.

Если для некоторых словарей и индекс нецелесообразно составлять, то другие успешно вычитывают и набирают вручную (БКРС, Босворт-Толлер).

«билингв мусорит в обоих языках — и первом, и втором» © Python
Вебсайт Найти все сообщения
Цитировать это сообщение
Создать ответ 


Переход:


Пользователи просматривают эту тему: 1 Гость(ей)