реклама на сайте
подробности

 
 
> Вопрос по кодировке текстового файла.
Валентиныч
сообщение Mar 27 2011, 15:53
Сообщение #1


Профессионал
****

Группа: Свой
Сообщений: 553
Регистрация: 17-02-05
Из: Свердловская обл.
Пользователь №: 2 712



Есть исходный английский текстовый файл, написанный латиницей в Unicod UTF-8.
Его требуется перевести на русский язык (ес-но, на кириллице), и при этом сохранить первоначальную кодировку UTF-8.

Все попытки выполнить требуемое, заканчиваются не очень удачно: файл "разбухает" в размере практически в два раза, при том, что количество строк, остается неизменным, при незначительном изменении количества символов в каждой строке (в ту, или другую сторону), т.е. общее количество символов в тексте практически не изменяется.

Просмотр HEX-кода файла встроенным в FAR редактором показывает, что каждый символ кириллического текста отображается двумя символами (не понятными для меня). Это и удваивает общий размер файла.

Исходный файл - меню прибора, которое отображается на его дисплее. Как может отразиться удвоение размера файла на работе девайса?

P.S. Кстати, точно такой же китайский файл написанный иероглифами, по размеру практически не отличается от английского.

P.P.S. Не нашел более подходящего раздела для размещения вопроса. Если модератор посчитает, что теме не место в этом разделе, прошу перенести ее, или вообще удалить.


--------------------
Закономерность: Чем больше узнаю, тем меньше знаю...
Любые мнения, даже ошибочные, имеют право на существование.
Чем лучше узнаю людей, тем больше нравятся собаки...
Go to the top of the page
 
+Quote Post
 
Start new topic
Ответов
тау
сообщение Mar 27 2011, 16:32
Сообщение #2


.
******

Группа: Участник
Сообщений: 2 424
Регистрация: 25-12-08
Пользователь №: 42 757



если хотите 8 битную кодировку - берите русский текст и через блокнот сохраняйте в формате ANSI , при этом будет задействована 8-битная кодировка Windows-1251.
Цитата
В системах Microsoft Windows кодовая страница ANSI (англ. ANSI code page, ACP) может означать:
Windows-1252 (в контексте американских и западноевропейских локализаций)
Windows-1251 — так называемая ранее корпорацией Microsoft «кириллица ANSI» (англ. ANSI Cyrillic)

http://ru.wikipedia.org/wiki/Windows-1251
Go to the top of the page
 
+Quote Post
Валентиныч
сообщение Mar 27 2011, 16:37
Сообщение #3


Профессионал
****

Группа: Свой
Сообщений: 553
Регистрация: 17-02-05
Из: Свердловская обл.
Пользователь №: 2 712



Цитата(тау @ Mar 27 2011, 21:32) *
если хотите 8 битную кодировку - берите русский текст и через блокнот сохраняйте в формате ANSI , при этом будет задействована 8-битная кодировка Windows-1251.
Я хочу, что бы железка, у которой в мозгах живет исходный английский файл, так же нормально отображала у себя на дисплее и русскоязычное меню.


--------------------
Закономерность: Чем больше узнаю, тем меньше знаю...
Любые мнения, даже ошибочные, имеют право на существование.
Чем лучше узнаю людей, тем больше нравятся собаки...
Go to the top of the page
 
+Quote Post
rezident
сообщение Mar 27 2011, 17:25
Сообщение #4


Гуру
******

Группа: Свой
Сообщений: 10 920
Регистрация: 5-04-05
Пользователь №: 3 882



Цитата(Валентиныч @ Mar 27 2011, 22:37) *
Я хочу, что бы железка, у которой в мозгах живет исходный английский файл, так же нормально отображала у себя на дисплее и русскоязычное меню.
Не совсем понятно, как конечная цель коррелирует с описываемыми вами проблемами?
Вот я беру небольшой ASCII-файл 963 байта и с помощью редактора FAR2 сохраняю его как UTF-8. Размер файла становится 1773 байт. Но я не вижу, где тут проблема-то? Если ваша железка действительно способна UTF-8 отображать, то причем тут длины файлов?
Строка символов на экране в любой исходной кодировке должна выглядеть одинаково.
Go to the top of the page
 
+Quote Post
Валентиныч
сообщение Mar 28 2011, 02:04
Сообщение #5


Профессионал
****

Группа: Свой
Сообщений: 553
Регистрация: 17-02-05
Из: Свердловская обл.
Пользователь №: 2 712



Цитата(rezident @ Mar 27 2011, 22:25) *
Если ваша железка действительно способна UTF-8 отображать, то причем тут длины файлов?
Начинаю понимать, что скорее всего ни при чем.
Еще вопрос. Где и как задается стиль и размер шрифта такого файла?


--------------------
Закономерность: Чем больше узнаю, тем меньше знаю...
Любые мнения, даже ошибочные, имеют право на существование.
Чем лучше узнаю людей, тем больше нравятся собаки...
Go to the top of the page
 
+Quote Post
=AK=
сообщение Mar 28 2011, 02:39
Сообщение #6


pontificator
******

Группа: Свой
Сообщений: 3 055
Регистрация: 8-02-05
Из: страны Оз
Пользователь №: 2 483



Цитата(Валентиныч @ Mar 28 2011, 12:34) *
Где и как задается стиль и размер шрифта такого файла?

На этот вопрос лучше всего может ответить разработчик прибора, в вашем случае - китайцы из Теквэя. Или кто-то из хакеров EEVblog-а. Или можете сами докопаться до ответа, если будете изучать man Линукса. laughing.gif
Go to the top of the page
 
+Quote Post

Сообщений в этой теме
- Валентиныч   Вопрос по кодировке текстового файла.   Mar 27 2011, 15:53
- - Methane   То UTF16 у вас получился.   Mar 27 2011, 16:04
- - rezident   Цитата(Валентиныч @ Mar 27 2011, 21:53) П...   Mar 27 2011, 16:11
|- - Валентиныч   Цитата(rezident @ Mar 27 2011, 21:11) А в...   Mar 27 2011, 16:18
|- - andrew_b   Цитата(Валентиныч @ Mar 28 2011, 05:04) Е...   Mar 28 2011, 05:24
|- - Валентиныч   Цитата(andrew_b @ Mar 28 2011, 11:24) Ниг...   Mar 28 2011, 05:46
- - @Ark   Цитата... ссылка утверждает, что китайское письмо ...   Mar 27 2011, 16:33
- - DpInRock   Вот ё. Китайское предложение может состоять из од...   Mar 27 2011, 16:35
- - Валентиныч   Очередной вопрос по кодировке UTF-8. В тексте ест...   Apr 1 2011, 05:44
|- - SysRq   Цитата(Валентиныч @ Apr 1 2011, 09:44) пе...   Apr 2 2011, 17:53
|- - Валентиныч   Цитата(SysRq @ Apr 2 2011, 23:53) Код сим...   Apr 3 2011, 02:14
- - XVR   Вам нужен Unicode редактор, который умеет читать и...   Apr 1 2011, 07:43
- - Валентиныч   Кто-бы еще ссылкой поделился на такой редактор. ...   Apr 1 2011, 09:42
|- - Tanya   Цитата(Валентиныч @ Apr 1 2011, 13:42) Кт...   Apr 1 2011, 09:50
|- - Валентиныч   Цитата(Tanya @ Apr 1 2011, 15:50) Notepad...   Apr 1 2011, 10:47
- - SysRq   Быть может, в начале файла префикс UFT8 нужен...   Apr 4 2011, 14:44
- - Валентиныч   Проверил. Префикс EFBBBF есть во всех файлах - и ...   Apr 4 2011, 17:50


Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 21st July 2025 - 22:06
Рейтинг@Mail.ru


Страница сгенерированна за 0.01443 секунд с 7
ELECTRONIX ©2004-2016