Создать тему  Создать ответ 
Разметка для глосс
24-11-2012, 20:04    
Сообщение: #1
Agrest

井蛙 / жабенєтко в керниці
Сообщений: 1556
Зарегистрирован: 08.08.12

 
Тут Искандер недавно жаловался,  глоссы делать неудобно. Мне кажется, делать глоссы пробелами — не лучшая идея, ведь у всех свой размер шрифта и прочая.

Предлагаю сделать разметку для глосс и прочей фуриганы. Если мы будем обсуждать лингвистику, нам глоссы понадобятся ещё не раз, так что лучше иметь специальную разметку.

Давайте подумаем, как сделать её максимально интуитивной и в то же время достаточно универсальной.

Вот обсуждение в Скайпе:
Цитата:[6:22:04 PM] Agrest: шандор, делать глоссы пробелами некошерно.
[6:22:15 PM] Agrest: давайте лучше подумает про тег для фуриганы
[6:22:31 PM] arseniiv: про транскриптазу
[6:23:11 PM] Ickander: [19:22:04] Agrest: шандор, делать глоссы пробелами некошерно.

<<< предложи альтернативу кроме ТеХа
[6:23:17 PM] Ickander: в ТеХе я делал
[6:23:23 PM] Ickander: там всё просто и красиво
[6:23:26 PM] arseniiv: таблицы
[6:23:42 PM] Agrest: Шандор: http://tatoeba.org/eng/sentences/several..._sentences
[6:23:48 PM] Ickander: ичоле толбицыте
[6:23:52 PM] Agrest: Шандор: можно и у нас такую фуригану сделать
[6:24:20 PM] Agrest: Арсений: таблицы не прокатят, т.к. нормально не переносятся по словам и будут растягивать у добрых людей на телефонах и не только экран.
[6:24:35 PM] Ickander: Дюме шоцэтако
[6:24:48 PM] Agrest: Шандор: посмотрите на серенькие японские примеры
[6:24:58 PM] Agrest: Шандор: там фуригана над буквами. Глоссы
[6:24:59 PM] Ickander: окуригана
[6:25:05 PM] Ickander: или как оно там называ ще
[6:25:07 PM] Agrest: окуригана после бука, разве не?
[6:25:10 PM] Agrest: а там фуригана
[6:25:15 PM] Ickander: фуригана тъа
[6:25:20 PM] Ickander: несуть
[6:25:25 PM] Ickander: как это набрать побырому
[6:25:31 PM] Agrest: Пока что никак
[6:25:36 PM] Agrest: я предлагаю вместе подумать
[6:25:36 PM] Ickander: ну так и отвали
[6:25:42 PM] Agrest: какой формат набора нужен
[6:25:42 PM] Ickander: есть ПДФ
[6:25:50 PM] Ickander: есть ЛаТеХ
[6:25:55 PM] Ickander: и в нём есть пакет
[6:25:59 PM] Ickander: ща уточню какой
[6:26:00 PM] Agrest: Блин
[6:26:05 PM] Agrest: какой нафиг латех в нете?
[6:26:19 PM] Agrest: Моё предложение:
[gloss]Иара[он] уара[ты] д-[3sub-] у-[2indob] с-[бить] уеит[pres][/gloss]
Что думаете?
[6:27:30 PM] Agrest: Вопросов три:
а) как отметить глоссой не всё слово, а только кусок?
б) как отметить глоссой пару слов?
в) как трактовать знаки препинания?
[6:27:33 PM] Ickander: \usepackage{gb4e}
[6:27:35 PM] Ickander: во
[6:27:43 PM] Agrest: Шандор: это замечательно, но при чём тут Улей?
[6:28:05 PM] Agrest: Шандор: я про вывод в HTML говорю. Когда у нас будет вывод Улья в ЛаТеХ, я обязтаельно использую gb4e
[6:28:13 PM] Ickander: Деме, а вы лейпцигский документ  читали?
[6:28:21 PM] Agrest: Шандор: нет
[6:28:25 PM] Ickander: вы ему противоречить часом не собрались?
[6:28:29 PM] Agrest: а что там?
[6:28:36 PM] Ickander: правила глоссирования
[6:28:53 PM] Agrest: изложите вкратце
[6:29:02 PM] Agrest: если там многобуков, то проще противиться
[6:29:19 PM] Agrest: но ссылка бы не помешала
[6:30:02 PM] Ickander: ща
[6:31:12 PM] Ickander: http://www.eva.mpg.de/lingua/pdf/LGR08.02.05.pdf
[6:34:01 PM] Agrest: это замечательно (хотя если я буду делать small-caps, он будет такой же, как в этом документе: неправильный), но этот документ регулирует вывод текста; а у меня стоит вопрос логичного формата для ввода
[6:34:06 PM] Agrest: вывод можно и потом tweak
[6:35:22 PM] Ickander: в примерах смолкапс нормальный
[6:35:26 PM] Ickander: нинада грязи
[6:35:35 PM] Agrest: точно-точно?
[6:35:41 PM] Agrest: ну может
[6:35:49 PM] Agrest: в любом случае, у нас будет ненормальный :(
[6:35:58 PM] Ickander: [19:34:01] Agrest: но этот документ регулирует вывод текста; а у меня стоит вопрос логичного формата для ввода

<<< читайте ынструкцыю к гб4е
[6:36:06 PM] Agrest: дайте ссылку
[6:36:18 PM] Ickander: [19:35:35] Agrest: точно-точно?

<<< насколько слепы мои глаза
[6:36:35 PM] Ickander: [19:36:06] Agrest: дайте ссылку

<<< нам с вами одинаково гуглить
[6:37:26 PM] Agrest: ок, ща найду
[6:38:37 PM] Ickander: на самом деле там всё очень примитивно
[6:38:41 PM] Ickander: можете не смотреть
[6:39:14 PM] Ickander: там просто делается контейнер и в нём отдельно прописываются строки, в которых поочереди перечисляются элементы
[6:39:15 PM] Ickander: \gll Mi-st\aa r tea \'\i -r  na is-mon-0   \'a i-arod,  s\aa *  na p\"ekta-t\textit{u}m  i to aq-t\textit{u}m \textit{\"\i i}ca-icca,  \'\i -m lev-em \'a i-biri\textit{e}ne.\\
\textsc{poss^{1sg}_{sg}}-old aunt have-3\textsc{rd~sg} to out-mean-\textsc{impf~3rd~sg} \textsc{acc~part} \textsc{poss^{3~f~sg}_{3sg}}-health, so when visit-do-\textsc{impf~1sg} \textsc{3rd~fem~obliq} or nightflop-do-\textsc{impf~1st} \textsc{poss^{3rd~f~sg}_{sg}}-house-\textsc{loc~inss}, have~\textsc{impf}-\textsc{1st~sg} wash~\textsc{impf}-\textsc{1st~sg} \textsc{acc~part} \textsc{poss^{3rd~f~sg}_{sg}}-foot-\textsc{dual}\\
[6:39:43 PM] Agrest: Ой не-е-е-е
[6:39:47 PM] Agrest: Нам такого не надо, слишком сложно
[6:39:54 PM] Ickander: причём он не выравнивает по дефисам
[6:39:58 PM] Ickander: только по границам слов
[6:40:09 PM] Ickander: короче это максимум
[6:40:17 PM] Ickander: в любом случае нужно оформлять строки
[6:40:28 PM] Ickander: потому как в глоссе их может быть много
[6:44:35 PM] Agrest: Вы предлагаете разбивать на строки? Тогда это решение не подойдёт для фуриганы и пиньиня.
[6:45:15 PM] Ickander: ну или столбцы, которые транслятор будет переделывать в выравняные строки
[6:45:18 PM] Ickander: хотя
[6:45:22 PM] Ickander: в хтмле
[6:45:23 PM] Agrest: Я думал по словам, типа
[gloss=below]Привет[Hello][Прывітанне], как[how][як] твои[your][твае] дела[affairs][справы]?[/gloss]
[gloss=above nospaces]你[you] 好[good][/gloss]
[6:45:27 PM] Ickander: я не знаю что удабнее
[6:45:44 PM] Ickander: это в тексе удобно строки
[6:45:49 PM] Agrest: удобство преобразования пофиг. важно удобство ввода
[6:45:54 PM] Agrest: как вам удобнее вводить?
[6:46:01 PM] Ickander: ну если нужно пропустить — оставить пустой параметр
[6:46:20 PM] Ickander: поэлементно удобнее на мой взгляд
[6:46:22 PM] Ickander: вводить
[6:46:26 PM] Ickander: но не читать код
[6:46:36 PM] Ickander: хотя код читать никак не удобно
[6:46:39 PM] Agrest: Поэлементно — это как? Как лучше:
[gloss]Привет мир!
Hello world![/gloss]

Или:
[gloss]Привет[Hello] мир[world][/gloss]
[6:46:40 PM] Ickander: ни так ни так
[6:47:49 PM] Ickander: [19:46:39] Agrest: Поэлементно — это как? Как лучше:

<<< Привет[Hello]-0[\textsc{nom}]
это от так
[6:48:01 PM] Agrest: Ах, понятно
[6:52:19 PM] Agrest: ща создам тему для общего обсуждения
[6:56:35 PM] Ickander: скинь втęда эту ветку если посибль
[6:56:42 PM] Agrest: ОК

«билингв мусорит в обоих языках — и первом, и втором» © Python
Вебсайт Найти все сообщения
Цитировать это сообщение
24-11-2012, 20:27    
Сообщение: #2
Agrest

井蛙 / жабенєтко в керниці
Сообщений: 1556
Зарегистрирован: 08.08.12

RE: Разметка для глосс
Я предлагаю такой формат:
[gloss=below]Hello[Привет], world[мир][/gloss]

Для китайского и прочих японских предлагается добавить опцию, которая убирает пробелы:
[gloss=above nospaces]你好[hello], 我[I] 叫[am called] 德米特里[Dmitry][/gloss]

Т.е. глосса записывается в квадратных кавычках и относится к тому, что находится перед ней, до ближайшего пробела.

Для соответствия с лейпцигским правилам глоссирования, «xx- yy» и «aa -bb» будут считаться одним словом, если они разделены ровно одним пробелом (чтобы сделать слово, заканчивающееся двумя дефисами, можно использовать два пробела):
[gloss=below]a-nii -láay[3SG-laugh-FUT][/gloss]

Если подряд идут несколько квадратных скобок, должны получаться 2 глоссы к одному тексту.

Чтобы добавить глоссу к более чем одному слову, можно добавить такие скобки:
[gloss]{это два слова}[а это глосса к ним][/gloss]

Недостаток такого формата в том, что {} и [] нельзя будет использовать в самих глоссированных текстах.

Жду замечаний и предложений, если все согласны — реализуем.

«билингв мусорит в обоих языках — и первом, и втором» © Python
Вебсайт Найти все сообщения
Цитировать это сообщение
24-11-2012, 20:48    
Сообщение: #3
Python

Senior Member
Сообщений: 462
Зарегистрирован: 11.07.12

RE: Разметка для глосс
(24-11-2012 20:27)Agrest писал(а):  Т.е. глосса записывается в квадратных кавычках и относится к тому, что находится перед ней, до ближайшего пробела.
IMHO, плохой стиль в сочетании с квадратноскобочностью ббкодов. Произвольный текст заключать лучше либо в круглые/фигурные/угловые скобки, либо двойные/одиночные/обратные кавычки — что угодно, только не квадратные скобки.

LF agent
Вебсайт Найти все сообщения
Цитировать это сообщение
24-11-2012, 21:09    
Сообщение: #4
Agrest

井蛙 / жабенєтко в керниці
Сообщений: 1556
Зарегистрирован: 08.08.12

 
(24-11-2012 20:48)Python писал(а):  IMHO, плохой стиль в сочетании с квадратноскобочностью ббкодов.
Вы же не надеетесь в глоссированных текстах использовать BB-коды? :blush: Это очень сильно усложнит реализацию.

Кавычки и круглые скобки — очень плохая идея, так как все они могут использоваться в каких-то языках, причём не редко (как [] и {}), а в самых обычных текстах.

<Такие> скобки отпадают, т.к. они используются в лейпцигских правилах.

Spoiler: Правила 4E и 9


Rule 4E. (Optional) писал(а):If a language has person-number affixes that express the agent-like and the patient-like argument of a transitive verb simultaneously, the symbol ">" may be used in the gloss to indicate that the first is the agent-like argument and the second is the patient-like argument.
Rule 9: Infixes писал(а):Infixes are enclosed by angle brackets, and so is the object-language counterpart in the gloss.


Видимо, всё, что остаётся — обратная кавычка (`) и фигурные скобки ({}). Предлагаю кавычку удваивать, чтобы избежать проблем для, например, узбеков, которые иногда пишут o` (хотя формально неправильно, но я такое встречал).

Получается, формат будет такой:
[gloss]Привет{Hello-NOM.SG}, мир-∅{world-NOM.SG}! Это{this} пример-∅{example-NOM.SG} глоссированн-ого{glossed-GEN.SG} текст-а{text-GEN.SG}. ``Текст с пробелами``{глосса к тексту с пробелами}[/gloss]

Так нормально?

«билингв мусорит в обоих языках — и первом, и втором» © Python
Вебсайт Найти все сообщения
Цитировать это сообщение
27-11-2012, 22:58    
Сообщение: #5
Bʰudʰ

Member
Сообщений: 188
Зарегистрирован: 23.10.12

RE: Разметка для глосс
Может, просто прикрутить кнопку «Глосса» и использовать произвольные символы для выделения глосс? Чтоб без конфликтов.
Всяких неиспользуемых в широкой массе скобок в Уникоде хоть залейся.

Исполнитель роли Терминатора по решению суда сменил фамилию на Афроамериканоафроамериканец.
В противном случае артисту грозил штраф в $1.723 млрд.
Найти все сообщения
Цитировать это сообщение
28-11-2012, 06:40    
Сообщение: #6
Ickander

Moderator
Сообщений: 425
Зарегистрирован: 18.08.12

RE: Разметка для глосс
Удобство набора вгде? Лучше пусть будут скобки, набирабельные с клавы. А лепить внутри глосс коды... нужны только суп и суб.
Найти все сообщения
Цитировать это сообщение
28-11-2012, 19:05    
Сообщение: #7
Python

Senior Member
Сообщений: 462
Зарегистрирован: 11.07.12

RE: Разметка для глосс
Кстати, можно ведь и так: внутри блока сделать преобразование разметки вида [ѕup]текст[/ѕup][ѕub]глосса[/ѕub] в глоссы. Как-то моноиконнее получится.

LF agent
Вебсайт Найти все сообщения
Цитировать это сообщение
09-01-2013, 14:22    
Сообщение: #8
Python

Senior Member
Сообщений: 462
Зарегистрирован: 11.07.12

RE: Разметка для глосс
Плагин для глосс от Деметриуса установлен и работает.

Привет{Hello-NOM.SG}, мир-∅{world-NOM.SG}! Это{this} пример-∅{example-NOM.SG} глоссированн-ого{glossed-GEN.SG} текст-а{text-GEN.SG}. Текст с пробелами{глосса к тексту с пробелами}

LF agent
Вебсайт Найти все сообщения
Цитировать это сообщение
12-01-2013, 07:19    
Сообщение: #9
Teilnehmer

Member
Сообщений: 69
Зарегистрирован: 31.12.12

 
Круто

(24-11-2012 20:27)Agrest писал(а):  Недостаток такого формата в том, что {} и [] нельзя будет использовать в самих глоссированных текстах.
А что мешает сделать для них эскейп-последовательности. Например, {{ даёт {, }} даёт }.
Найти все сообщения
Цитировать это сообщение
16-01-2013, 12:42    
Сообщение: #10
Agrest

井蛙 / жабенєтко в керниці
Сообщений: 1556
Зарегистрирован: 08.08.12

 
(12-01-2013 07:19)Teilnehmer писал(а):  А что мешает сделать для них эскейп-последовательности. Например, {{ даёт {, }} даёт }.
Пока что [[[ даёт { и ]]] даёт }: te[s]t{te[s]t}. Впрочем, я не уверен, действительно ли такой неуклюжий эскейп нужен. Гм... По-моему на форуме этот эскейп и без того заюзан.

Кстати, вот это из заявленного в #1 не реализовано:
(24-11-2012 20:27)Agrest писал(а):  Для соответствия с лейпцигским правилам глоссирования, «xx- yy» и «aa -bb» будут считаться одним словом, если они разделены ровно одним пробелом (чтобы сделать слово, заканчивающееся двумя дефисами, можно использовать два пробела):
[gloss=below]a-nii -láay[3SG-laugh-FUT][/gloss]
Чтобы получить a-nii -láay,{3SG-laugh-FUT} надо писать [gloss]``a-nii -láay,``{3SG-laugh-FUT}[/gloss].

«билингв мусорит в обоих языках — и первом, и втором» © Python
Вебсайт Найти все сообщения
Цитировать это сообщение
Создать ответ 


Переход:


Пользователи просматривают эту тему: 1 Гость(ей)