Mailing List CyrTeX-ru@vsu.ru Message #741
From: Лидовский Владимир <CyrTeX-ru@vsu.ru>
Subject: Re: как обработать TeXом unicode
Date: Mon, 10 Nov 2008 12:20:14 +0300
To: Dipsy <cyrtex-ru@vsu.ru>
09.11.08, 16:20, "Dipsy"
>а можно немножечко подробней, по данным подсказкам я буду день ковыряться..
>А вообще, благодарю!
Интересная позиция... Но попробую поподробнее. Предложенный инструментарий, насколько мне известно, единственный, решающий проблему простой перекодировкой. На первом шаге текст приводится к виду, воспринимаемому программой rucnv, т.е. с уникодами в форме типа [U+0410]. Он выполняется стандартной для всех линоксоюниксов программой sed, которую можно для microsoft windows взять из множества источников (например, www.delorie.com). На втором шаге авторская программа rucnv транслирует формы [U+nnnn] в коды нужной вам кодировки, в частности, UTF-8. Проблем с трансляцией быть не может в любой системе, где есть Си++ (см. README). Если у вас Microsoft Windows без C++, то можно с авторского сайта litwr.boom.ru взять скомпилированный exe-файл.
Буду рад ответить, если возникнут еще вопросы. Буду также рад пожеланиям по rucnv.


2008/10/27 Лидовский Владимир <CyrTeX-ru@vsu.ru>
 
Добрый день!
 Если не пугают сценарии, то решение может быть таким
 
 1) sed 's/\\unicode{\([^}]*\)}/[U+\1]/g' infile.tex >outfile.tex
 в outfile.tex \unicode{...} заменятся на [U+...]
 
 2) rucnv 21u outfile.tex outfile.tex
 даст UTF-8 в otfile. Меняя цифры перед u, можнo получать любые кодировки. Rucnv можно взять с http://www.ibiblio.org/pub/linux/apps/misc/  файл rucnv-1.0.7.tar.bz2
 
Subscribe (FEED) Subscribe (DIGEST) Subscribe (INDEX) Unsubscribe Mail to Listmaster