Mailing List CyrTeX-ru@vsu.ru Message #355
From: Лидовский Владимир <CyrTeX-ru@vsu.ru>
Subject: Re: shape of the yat, AFMtoENC
Date: Fri, 04 Jul 2008 14:21:29 +0400
To: <cyrtex-ru@vsu.ru>
19.06.08, 15:52, "Alexey Kryukov" <CyrTeX-ru@vsu.ru>:

> Впрочем, это, конечно, злостный оффтоп.

Как мне вас убедить, что у меня еще не сложилось четкого впечатления от
XeTeX? Возможно и самому придется им попользоваться, но пока хватает
обычного ТеХ и пугает некоторая несовместимость XeTeX со старым добрым и
тщательно проверенным ТеХ. И совсем была не о том тема. Речь была о том,
что у меня возникли проблемы с подключением произвольного Type 1, ttf и др.
шрифтов к TeX. Оказалась, что нет практически ничего для быстрой инсталляции
таких шрифтов. Поэтому и появилась утилита AFMtoENC, которая эту проблему
как-то решает. Дальше вынес ее на рассмотрение участников CyrTUG - все!

> Можно. Вообще-то как inputenc при использовании кодировки T1, так
> и пакет xunicode для XeTeX как раз и стараются подставлять готовые
> композиты, если таковые доступны. Однако создатели Unicode давно

Ну тут их Кнут явно опередил! ;-) И есть еще SIL (если вы имеете отношение
к лингвистике, то аббревиатуру наверное знаете).

> поняли, что все мыслимые акцентированные комбинации закодировать
> невозможно. Для меня, в частности, наиболее интересны именно те
> случаи, когда готовых композитов не существует. Например, символы
> кириллицы с ударениями.

Это очевидно, но в Unicode 2^32 кодов -- теоретически должно хватить и на
"композиты".

> Видите ли, в мире софта любое, самое замечательное произведение

искусства?

> не может долго просуществовать без регулярных обновлений. Это относится
> и к шрифтам тоже. Если шрифт действительно добротный и профессионально
> сделанный -- что ж, тем легче привести его к современным требованиям,
> если, конечно, тому не препятствуют лицензионные соображения. Кстати,
> для свободных шрифтовых проектов это совершенно не проблема: все они
> очень динамично развиваются.

звучит очень революционно, как о костях старого мира. "Все они"...

> Можно, и Вы, по сути дела, именно это сказали, заявив, что pdftex
> ныне "полностью заменяет TeX Кнута". Конечно, "старый" в данном
> контексте вовсе не значит "плохой".

Но он действительно его заменяет на 100% и на 100% с ним совместим.

> Что ж, если даже нам приходится работать с юникодовыми шрифтами образца
> 1996 г., взятыми из старого варезятника, то и здесь XeTeX сослужит
> хорошую службу. По крайней мере, у нас будет возможность доступа ко всем
> без исключения символам, имеющимся в этих шрифтах, независимо от того,
> имеются ли для них аналоги в одной из TeX'овских кодировок.

Да, конечно, у XeTeX тут есть некоторое преимущество - для обычного LaTeX
могут понадобиться несколько tfm-файлов, но это лишь небольшое удобство,  
которое достается небесплатно.

> > Ну в Unicode, акцентов не намного больше, чем в ТеХ,
> В кодировке T1 имеется ровно 13 акцентов, в то время как в Юникоде

А почему только в T1? Хотя, конечно, в unicode диакритик больше, но это ведь вопрос не принципиальный, а вопрос востребованности...

> их 112 штук в одном только блоке Combining Diacritical Marks. Это
> без учета, например, славянских буквотитл, добавленных в Unicode 5.1.
> > особено если
> > сравнивать частоту использования.

> Видите ли, аргумент частоты неубедителен, если приходится иметь дело
> с мало-мальски нестандартными задачами. Пусть в моей верстке на сотню
> стандартных акцентов затесается пара-тройка менее распространенных, зато
> уж на них-то я убью пару часов, сочиняя и отлаживая новую таблицу
> кодировки. А с нативной поддержкой юникодовых шрифтов эти затраты
> сводятся к нулю.

Речь идет, как вы сами отметили, о чрезвычайно редких ситуациях. Похоже,
что XeTeX в данных ситуациях будет на высоте. Хотя все же речь не о нуле,
так как нужно знать, что заданный шрифт содержит нужный редкий символ.  

> Да, (pdf)TeX позволяет набирать тексты в UTF-8. Проблема в том, что
> Юникод будет у Вас только на входе, в то время как на выходе вы всё
> равно будете ограничены тем набором символов, который имеется в
> стандартных TeX'овских кодировках.

Никто не мешает использовать естественную кодировку шрифта или разработанную самостоятельно. Конечно, иметь несколько tfm для одного файла шрифта - это явные издержки технологии, но ведь об этом после установки шрифта можно уже и не думать. Абсолютное большинство текстов на алфавитных письменностях кодируется байтом на знак - само существование UTF-8 является этому наглядным примером. Поэтому свести все к Unicode - это маловероятная перспектива. Как всегда есть высокие объединяющие концепции, но... Есть еще и проблема ввода текстов.  

> Да и я, хотя не считаю себя ламером, но тоже предпочитаю, чтобы всё
> работало "из коробки", без каких-то там прописываний.

Установка нового шрифта в любой системе потребует к себе некоторого внимания. Или вы хотите, чтобы все шрифты оформлялись в коробочные дистрибутивы с механизмом P&P?
 
> > Более того *неопытный user* может все скинуть (enc, tfm, ttf, ...) в
> > ЛЮБОЙ ТеХ-каталог для своих файлов шрифтов и файлов их поддержки.
> Всё равно понадобится найти и отредактировать updmap, иначе ничего
> не получится.

Можно прописать \pdfmapline

> > Недостаток pdfTeX в том, что он пока не умеет загружать часть глиф из
> > Open Type шрифтов, а всегда загружает весь шрифт целиком -
> Поясните, что Вы имеете в виду. С моей точки зрения, проблема прямо
> противоположная: достать из шрифта мы можем только те символы, которые
> прописаны в ENC-файле, то есть ровно 256 штук за раз и никак не больше.

Похоже, что pdfTeX грузит их все (может 100, а может 10000) - это, если я правильно понял, весьма серьезный недостаток.

> И, кстати, что Вы в данном случае понимаете под Open Type шрифтами
> (спрашиваю потому, что этот термин может иметь разные значения)?

Именно то, о чем написано в pdfTeX manual.

> > и при чем тут tfm?!
> Да при том, что он тоже принципиально восьмибитный. Это не говоря уж
> о том, что он просто не нужен, т. к. все необходимые данные уже
> содержатся в TTF/OTF.

А как быть с MF-шрифтами?

> Не понимаю. Вы так не любите XeTeX, что предлагаете Омегу в качестве
> альтернативы? Что ж, возможно, вы удивитесь, узнав, что никакой Омеги,
> строго говоря, нет: проект мертв уже лет десять как. А XeTeX именно тем
> и хорош, что представляет собой более успешное воплощение большинства
> идей, некогда выдвинутых создателями Омеги.

Ни разу не пользовался Омегой, но это ведь тоже была система не вполне совместимая с ТеХ? ;-)

> Дело в том, что применительно к TeX'у о нормальной работе с Unicode
> можно говорить только при наличии компилятора с нативной поддержкой
> 16-битных символов и юникодовых шрифтов. Таких компиляторов,
> действительно, существует несколько, но XeTeX -- единственный из них,
> достигший стабильного состояния. Только поэтому разговор и сводится
> в основном к нему.

Да, конечно, здесь XeTeX похоже чемпион, но постоянная и полная поддержка Unicode нужна наверное только строителю новой вавилонской башни. :-) Обычным юзерам Unicode необходим только для единовременного включения одного-другого редкого знака.

03.07.08, 19:08, "Alexey Kryukov" <CyrTeX-ru@vsu.ru>:

> On Thursday 03 July 2008, Лидовский Владимир wrote:
> > К сожалению, более 20 глиф T2D (буквы,
> > диакритические знаки) до сих пор не представлены в Unicode,
> > вследствии чего они отсутствуют в ttf-шрифтах. :-(
> Я насчитал 5 букв (10 знаков с учетом обоих регистров),
> две комбинации диакритик, по отдельности в Юникоде представленных,
> три кириллических акцента, общих для всех кодировок T2* (из
> них два в Юникоде представлены только комбинируемыми формами,
> а третий (cyrillic breve) считается вариантной формой), да еще
> perthousandzero, общее для всех кодировок серии T*.
> Что до букв, то это опять же вариантные формы, у которых нет
> никаких шансов на включение в Юникод и которые неизвестно зачем
> были включены в T2D. Т. о. во-первых никак не получается двадцать,
> а во-вторых, не видно особых поводов для сожаления.

Знаком с церковнославянской письменностью лишь поверхностно, хотя для диссертации самому пришлось почти всю азбуку и поддержку диакритик делать на основе программ SIL (они уже явно устарели). Поэтому привел данные, опираясь на формальный источник - LaTeX-пакет unicode. На основании этого источника в T2D нет уникодов для позиций 1d-1f,80,81,84,85,88,94,96,a0,a1,a4,a5,a8. Позиции 86, 92, a6 и b2 заполнены только в Unicode 5.1 (где шрифты с их поддержкой!?). Позиции 9b и bb могут заполнены юникодами 0510 и 0511, но не уверен, что это верно.
Subscribe (FEED) Subscribe (DIGEST) Subscribe (INDEX) Unsubscribe Mail to Listmaster