Skip to content
m2gene edited this page Jun 16, 2019 · 52 revisions

Вопросы к автору:

1. -t

For the files with -t in their name, only digrams and trigrams are accounted for that are in the interior of words and that do not contain hyphenation points.

opt deutsch.txt deutsch-t.txt deutsch-t.txt gemischt.txt

uses the frequency files for German that are shipping with the optimiser to create new frequency files in which digrams and trigrams at word boundaries or containing hyphenation points are only accounted with one third of their weight.

2. Что набирать: Блоки символов и частота употребления.

Чтобы использовать компьютер для разработки хорошей раскладки, необходимо указать, что именно планируется печатать. Раскладка генериуется на основе вашего текста, который вы самостоятельно предоставите программе как исходные данные. To this end, a corpusis used, that is, a collection of texts that are representative of those one wishes to type.

Программа разбивает входной текст на блоки: буквенные частоты, частоты диграмм (последовательность из двух букв) и триграмм (последовательность из трех букв). Эти частоты хранятся в файлах с одинаковыми именами и имеют расширения 1, 2 и 3 соответственно. Диграммы и триграммы частично совпадают. Например, слово «bike» содержит диграммы «bi», «ik» и «ke», а также триграммы «bik» и «ike».

В архиве программы в качестве примера содержатся сгенерированные файлы с частотной выборкой немецкого и английского текста. For the files with -t in their name, only digrams and trigrams are accounted for that are in the interior of words and that do not contain hyphenation points.

2.1 Создание файлов с частотной выборкой на основе ваших данных.

Чтобы использовать собственную коллекцию текстов, выполните следующие действия:

  1. Сохраните весь ваш текст в одном файле с кодировкой UTF-8 и расширением txt, например: meinkorpus.txt.
  2. Убедитесь, что файл имеет кодировку UTF-8.
  3. Используйте команду opt для генерации частотных файлов: Например:

opt meinkorpus.txt

создает файлы с частотной выборкой meinkorpus.txt.1 (одиночные буквы и символы), meinkorpus.txt.2 (биграммы) и meinkorpus.txt.3 (триграммы) на основе текста из файла meinkorpus.txt, а также частотный список всех используемых слов meinkorpus.txt.wl. Данные файлы создаются в той же директории, что и исходный файл meinkorpus.txt.

Если вы вызываете оператор opt с двумя аргументами, программа предполагает, что первый аргумент обозначает файл, содержащий шаблоны переноса TEX в кодировке UTF-8 (* .pat.txt), а второй аргумент - файл с коллекцией текста. В этом случае программа создает файлы с частотной выборкой, в которых подсчитаны диграммы и триграммы без учета переносов. Например:

opt hyph-de-1996.pat.txt meinkorpus.txt

opt также может составлять выборку из нескольких текстовых файлов. Для этого вызовите более двух аргументов. Например:

opt deutsch.txt deutsch-t.txt deutsch-t.txt gemischt.txt

uses the frequency files for German that are shipping with the optimiser to create new frequency files in which digrams and trigrams at word boundaries or containing hyphenation points are only accounted with one third of their weight. Another possibility for combining and weightingfrequency files is option-G, as described below.

2.2 Использование файлов с частотной выборкой.

Программе можно задать дополнительные опции обработки текста. Используйте префикс -2 чтобы программы сгенерировала раскладку с учетом только частотности употребления оддельных символов и диграмм. Используйте префикс -3 чтобы дополнительно учитывались частоты триграмм. Например:

opt -2 deutsch.txt составит раскладку с использованием частотных выборок на основе файла deutsch.txt без учета триграмм.

В случае, если файла с частотной выборкой для отдельных символов (в примере выше, deutsch.txt.1) не существует, программа пытается открыть файл с именем заданного аргумента (то есть deutsch.txt). Если это удается, этот файл рассматривается как корпус. Это позволяет пропустить промежуточный этап использования частотных файлов, однако чтение корпуса занимает больше времени. При запуске программы Вы можете указать префиксы -2 или -3 несколько раз. По умолчанию все файлы частотной выборки имеют одинаковый вес независимо от размера корпуса, использованного для их создания. Используя опцию -G (по умолчанию значение 1), вы можете изменить вес частотных файлов. Например:

opt -2 deutsch.txt -G 3 -2 englisch.txt

при вводе этой команды удельный вес частотной выборки из english.txt в три раза превысит таковую из deutch.txt при составлении раскладки. Задание различных или даже разноязычных частотных файлов отдельно с помощью применения специальных префиксов требует несколько больших вычислительных усилий, чем использование одного суммированного корпуса. С другой стороны, преимущество этого подхода заключается в том, что оптимальная компоновка, определенная таким образом (при условии, что она вообще найдена), является оптимальной по Парето по отношению к отдельным корпусам. То есть дальше невозможно улучшить раскладку для любого из корпусов, не ухудшая ее для другого. Использование для анализа одного суммированного корпуса не даст данного преимущества.

2.3 Размер корпуса, систематические и статистические ошибки.

Если при создании раскладки вместо использования подготовленных частотных файлов, вы читаете основной корпус-файл напрямую, (смотрите ключ -r в Параграфе 5) то первоначальная раскладка формируется из первых символов файла. Для расчета частот символов программа предполагает биномиальное распределение, а среднее и дисперсия распределения оцениваются по относительным частотам символов, найденных в корпусе. Для вычисления стандартного отклонения, триграммы и отсутствующие символы не учитываются.

Различия в усилиях одного стандартного отклонения или ниже незначительны, то есть они могут быть легко вызваны только случайным выбором в тексте. Различия в три стандартных отклонения или больше можно считать реальными. Чтобы уменьшить стандартное отклонение, необходимо увеличить размер корпуса. Стандартное отклонение обратно пропорционально квадратному корню из размера корпуса. Например, чтобы уменьшить стандартное отклонение вдвое, вам нужен корпус в четыре раза больше. Статистическая погрешность-это не единственная неопределенность, связанная с корпусом.

Чтобы уменьшить стандартное отклонение, необходимо увеличить размер корпуса. Стандартное отклонение обратно пропорционально квадратному корню из корпуса. Например, чтобы уменьшить стандартное отклонение вдвое, вам нужен корпус в четыре раза больше. Статистическая ошибка - не единственная неопределенность, которая связана с корпусом. Например, тип текстов (тексты с длинными или короткими предложениями, со многими или с несколькими иностранными словами) вводится асистематически, что не видно в стандартном отклонении.

2.4 Замена одних символов другими.

Если вы хотите вводить один символ, вводя последовательность из одного или нескольких других символов, вы можете осуществить это с помощью эрзаца, (см. Параграф 6.1). Нет необходимости изменять корпус или файлы с частотной выборкой. Однако, если вы хотите объединить несколько последовательностей символов в один массив, то эта простая процедура больше не работает, так как информация, сохраненная в частотном файле, недостаточна для поддержки суммарных замен. В этом случае необходимо заменить последовательность символов для генерации раскладки. Из этого измененного корпуса затем создаются новые частотные файлы.

2.5 Другие операции.

Используя опцию -T, из корпуса и файла с шаблонами переносов TEX, вы можете создать третий файл,, в котором все возможные точки переносов отмечены мягким дефисом: (-): UTF-8:(U+00AD).

Например:

opt -T hyph-en-gb.pat.txt input.txt result.txt

3 Схема оценки.

Чтобы составить раскладку клавиатуры, мы учитываем последовательность нажатий клавиш, необходимых, чтобы ввести корпус (тестовый набор?) с этой раскладкой. Также как в корпусе, мы ограничиваем нашу оценку парой критериев. Каждый из этих критериев дает вклад в effort. Сумма этих вкладов это общий effort (см Уравнение 2).

Таблица 1: Разложение диграмм на ключевые ди-_и_триграммы.

kx - это клавиша x; sx - клавиша Shift; ky и sy аналогично.

sxkx и syky считаются отдельными клавишами,

так как они соответствуют заглавным буквам.

kxky и kxsy - это обычные клавишные биграммы.

sxkxky и sxkxsy - это биграммы с зажатым Shift.

kxsyky - клавишная триграмма.

Clone this wiki locally