(20-09-2014 23:22)Agrest писал(а): По моему разумению, наши индексы сами по себе представляют суррогат по отношению к полностью проиндексированному (т.е. где записано каждое слово) и полностью OCR'ному виду.
И по-моему в этом нет ничего плохого. Никогда нет предела совершенству. Индекс с каждой 10 страницей лучше, чем никакого. Индекс с каждой страницей лучше, чем с каждой десятой. Индекс с каждым словом лучше, чем с каждой страницей. Полный OCR лучше, чем индекс с каждым словом...
Надо также учитывать себестоимость.
Проиндексировать все страницы - дёшево, но даёт абсолютно удовлетворительный результат, сравнимый по удобству с такими оболочками как GoldenDict.
Проиндексировать каждую десятую страницу ― да, можно потратить пять минут вместо часа, и получить соответствующий результат. Относительно выигрыш в десять раз, но абсолютно ― порядка часа, разговору больше.
Проиндексировать все слова - на порядок дороже, чем страницы (если допустить порядка десяти слов на странице), при этом я не вижу, каким образом такой индекс может принципиально дать лучшую функциональность.
Полный OCR, во-первых, требует серьёзного программного обеспечения, во-вторых, вычитки, и чем менее мейнстримный язык, тем больше значение вычитки. Например, я не верю, что какая-либо программа адекватно переварит латинский словарь с макронами и бреве, не говоря о древнегреческом. Также пример гуглокниг и archive.org показывает, что качественное распознавание - это непросто и недёшево.
Даже если представить себе отсканированный файл с идеальным текстовым слоем, можно поставить вопрос о том, насколько Ctrl+F более удобно для поиска
статей, чем, например, обыкновенный индекс из закладок на каждую страницу.
На самом деле, конечно, вместо скана с текстовым слоем должен фигурировать электронный словарь. И опять же текущие практики показывают, что их создать непросто, даже для Аби лингво. Например, я немало пользовался лингвовским Дворецким и могу сказать, что хотя в целом он удовлетворителен, там всё-таки немало ляпов оцифровки, и в сколько-то спорных случаях необходимо лезть в скан. Или вот их же португальско-русский словарь. Насколько могу судить, он создан на основе "Большого португальско-русского словаря" Феерштейна―Старец, однако это очень покоцанная версия, и сканированный Феерштейн―Старец с индексом, прикрученный к тому же GoldenDict-у, выигрывает. Получается, что аккуратно переносить статьи полностью, вместе с примерами было слишком дорого.
Короче говоря, когда словарь создаётся сразу в электронном виде, получается качественный современный словарь. Чтобы качественно конвертировать бумажный словарь, нужно вложить большой труд, на уровне крупных компаний или университетов.
Также несложные расчёты показывают, что создание в процессе использования даже полного постраничного индекса, не говоря о более сложной оцифровке, практически нереально.
Таким образом, я считаю, что с точки зрения соотношения качество/цена использование отсканированного словаря с постраничным индексом является локальным максимумом.