|
09.11.08, 16:20, "Dipsy"
>а можно немножечко подробней, по данным подсказкам я буду день ковыряться..
>А вообще, благодарю!
Интересная позиция... Но попробую поподробнее. Предложенный инструментарий, насколько мне известно, единственный, решающий проблему простой перекодировкой. На первом шаге текст приводится к виду, воспринимаемому программой rucnv, т.е. с уникодами в форме типа [U+0410]. Он выполняется стандартной для всех линоксоюниксов программой sed, которую можно для microsoft windows взять из множества источников (например, www.delorie.com). На втором шаге авторская программа rucnv транслирует формы [U+nnnn] в коды нужной вам кодировки, в частности, UTF-8. Проблем с трансляцией быть не может в любой системе, где есть Си++ (см. README). Если у вас Microsoft Windows без C++, то можно с авторского сайта litwr.boom.ru взять скомпилированный exe-файл.
Буду рад ответить, если возникнут еще вопросы. Буду также рад пожеланиям по rucnv.
2008/10/27 Лидовский Владимир <CyrTeX-ru@vsu.ru>
Добрый день!
Если не пугают сценарии, то решение может быть таким
1) sed 's/\\unicode{\([^}]*\)}/[U+\1]/g' infile.tex >outfile.tex
в outfile.tex \unicode{...} заменятся на [U+...]
2) rucnv 21u outfile.tex outfile.tex
даст UTF-8 в otfile. Меняя цифры перед u, можнo получать любые кодировки. Rucnv можно взять с http://www.ibiblio.org/pub/linux/apps/misc/ файл rucnv-1.0.7.tar.bz2
|
|