Робота з текстом. Як визначити кодування файлу
Зміст
Давайте дізнаємося, що таке кодування файлу. Говорячи простіше, кодуванням вважається набір байтових символів, який відповідає буквеному алфавітом в певній мові. Для кожної мови існує своя певна послідовність таких знаків кодування. Іноді виникає потреба визначити кодування. Розглянемо це на прикладі текстового документа.
Що потрібно
Набір певних програмних засобів. Для початку достатньо додатків типу Word, KWrite, браузера Firefox і засоби розпізнавання - enca.
Визначити кодування файлу можна за допомогою універсального редактора Microsoft Word. Перш, його потрібно проинсталлировать з пакету Office. Коли додаток буде встановлено, і зможе відкриватися за допомогою іконки у вигляді символу W на робочому столі, переходимо до наступного кроку.
Наступний етап розпізнавання
Через навігаційну панель додатки по черзі відкрийте пункти «Файл» - «відкрити». Те ж саме можна зробити, задіявши комбінацію клавіатури Ctrl + O.
Потім в діалоговому вікні виберіть потрібний каталог і, власне, файл для читання. Виділивши його мишею, натисніть кнопку «відкриття».
Коли у файлу набір відповідності не CP1251, додаток намагається самостійно визначити кодування. Буде виведений список можливих відповідностей. У запропонованих наборах символів у правій частині списку виберіть одну з кодувань. Якщо вибір зроблено правильно, в елементі «зразок» відобразиться розпізнаний текст.
Як визначити кодування за допомогою KWrite
Крім препроцесора для обробки тексту, Word, існують і інші функціональні утиліти. Одна з них - KWrite (Аналог для unix-систем). Щоб ви не плуталися, розпишу по пунктах завдання «визначити кодування документа в KWrite».
- Завантаження в додаток файлу з розширенням .txt.
- Перебір кодувань до тих пір, поки одна з них не виявиться підходящою.
- Щоб виконати пункт 2, перейдіть до опції tools в меню encoding.
Браузер Mozilla Firefox, мета та ж - визначити кодування
Принцип приблизно той же, що і в утилітах для роботи з текстом. Запускаємо проинсталлировать браузер на виконання, а якщо він не встановлений - викачуємо інсталятор з mozilla.org.
Потім у відкритому вікні програми потрібно відкрити текстовий документ через меню «Файл», підменю «Відкрити файл». Якщо обраний файл відобразиться без спотворень, і текст читається, визначити кодування не складе труднощів.
Для цього перейдіть на «Вид» - «кодування», там відображено кілька наборів символів, а той з них, навпроти якого стоїть «галочка», і є певна браузером кодування.
Якщо ж текст не було розпізнано правильно, виберіть підрозділ «додатково», поекспериментуйте в ньому з кодуваннями або виберіть значення «авто».
Спеціалізоване ПО - працюємо з enca
Існує і ряд допоміжних електронних засобів, що дають можливість визначити кодування текст.
Для тих, хто звик працювати під unix, підійде утиліта enca. Її можна встановити за допомогою сервісу «Диспетчер пакетів». Знайшовши доступну категорію пакетів, можна приступити до встановлення програмного забезпечення.
Щоб вивести лістинг мов розпізнавання, виконайте команду enca --list languages, використовуючи термінал.
Якщо потрібно визначити кодування текстового файлу після ключа (g), введіть його назву, а після опції (L) приблизно таким же чином введіть мову розпізнавання:
enca -L russian -g /home/vic/temp/myfile.txt.
Підсумуємо сказане про кодування
Вважаю, що зазначені вище утиліти стануть для користувача достатнім набором інструментів для розкодування текстових документів.
Поки, власне, це все про те, як розпізнати кодування. Для стандартних цілей, думаю, вказане програмне забезпечення цілком підійде. Є і більш спеціалізовані методи визначення, але їх розгляд виходить за рамки цієї статті.
Для програми Microsoft Word джерелом розпізнавання може бути як простий текст, так і документ зі складним форматуванням.