reforef.ru 1
В.А.Серебряков



Лекции по
конструированию компиляторов


Москва

1993

Предисловие


Предлагаемая вниманию читателя книга основана на курсе лекций,

прочитанных автором на факультете вычислительной математики и

кибернетики Московского государственного университета в 1991-

1993 гг. Автор надеется, что издание книги восполнит

существенный пробел в литературе на руссом языке по разработке

компиляторов.

Содержание книги представляет собой "классические" разделы

предмета: лексический и синтаксический анализ, организация

памяти, генерация кода. Сделана попытка на протяжении всего

изложения провести единую "атрибутную" точку зрения на процесс

разработки компилятора. В книге не затрагиваются чрезвычайно

важные вопросы глобальной оптимизации и разработки

компиляторов для машин с параллельной архитектурой. Автор

надеется восполнить эти пробелы в будущем.

Книга будет полезной как студентам и аспирантам

программистских специальностей, так и профессионалам в этих

областях.
Оглавление
Глава 1. Введение 6

1.1. Место компилятора в программном обеспечении 6

1.2. Структура компилятора 7

Глава 2. Лексический анализ 11

2.1. Регулярные множества и регулярные выражения 13

2.2. Конечные автоматы 14

2.3. Построение детерминированного конечного

автомата по регулярному выражению 17

2.4. Построение детерминированного конечного

автомата с минимальным числом состояний 20

2.5. Программирование лексических анализаторов 22

2.6. Конструктор лексических анализаторов LEX 27

Глава 3. Синтаксический анализ 31

3.1. Основные понятия и определения 31

3.2. Таблично-управляемый предсказывающий разбор 33


3.2.1. Алгоритм разбора сверху-вниз 33

3.2.2. Множества FIRST и FOLLOW 37

3.2.3. Конструирование таблиц

предсказывающего анализатора 39

3.2.4. LL(1)-грамматики 40

3.2.5. Удаление левой рекурсии 41

3.2.6. Левая факторизация 43

3.2.7. Рекурсивный спуск 44

3.2.8. Диаграммы переходов для рекурсивного спуска 46

3.2.9. Восстановление после синтаксических ошибок 48

3.3. Разбор снизу-вверх типа сдвиг-свертка 49

3.3.1. Основа 49

3.3.2. LR(k)-анализаторы 51

3.3.3. LR грамматики 56

3.3.4. Конфликты разбора типа сдвиг-свертка 62

3.3.5. Восстановление после синтаксических ошибок 63

Глава 4. Промежуточные представления программы 64

4.1. Представление в виде ориентированного графа 64

4.2. Трехадресный код 64

4.3. Линеаризованные представления 69

4.4. Организация информации в генераторе кода 72

4.5. Уровень промежуточного представления 73

Глава 5. Элементы теории перевода 74

5.1. Преобразователи с магазинной памятью 74

5.2. Синтаксически управляемый перевод 76

5.3. Атрибутные грамматики 79

5.3.1. Определение атрибутных грамматик 79

5.3.2. Атрибутированное дерево разбора 80

5.3.3. Язык описания атрибутных грамматик 81

Глава 6. Контекстные условия языков программирования 85

6.1. Описание областей видимости и блочной структуры 85

6.2. Структура среды Модулы-2 86

6.3. Занесение в среду и поиск объектов 90

Глава 7. Организация таблиц символов компилятора 98

7.1. Таблицы идентификаторов и таблицы символов 98

7.2. Таблицы идентификаторов 99

7.3. Таблицы символов и таблицы расстановки 102

7.4. Функции расстановки 103


7.5. Таблицы на деревьях 104

7.6. Реализация блочной структуры 108

7.7. Сравнение различных методов реализации таблиц 109

Глава 8. Генерация кода 110

8.1. Модель машины 110

8.2. Динамическая организация памяти 113

8.3. Назначение адресов 122

8.4. Трансляция переменных 124

8.5. Трансляция целых выражений 130

8.6. Распределение регистров при вычислении

арифметических выражений 132

8.7. Трансляция логических выражений 143

8.8. Выделение общих подвыражений 151

8.9. Генерация оптимального кода методами

синтаксического анализа 155

8.9.1. Сопоставление образцов 155

8.9.2. Синтаксический анализ для Т-грамматик 158

8.9.3. Выбор дерева вывода наименьшей стоимости 165

Глава 9. Системы автоматизации построения трансляторов 169

9.1. Система Супер 169

9.2. Система Yacc 172

Литература 175
Глава 1. Введение

1.1. Место компилятора в программном обеспечении
Компиляторы составляют существенную часть программного

обеспечения ЭВМ. Это связано с тем, что языки высокого уровня

стали основным средством разработки программ. Только очень

незначительная часть программного обеспечения, требующая

особой эффективности, программируется с помощью ассемблеров. В

настоящее время распространено довольно много языков

программирования. Наряду с традиционными языками, такими, как

Фортран, широкое распространение получили так называемые

"универсальные языки" (Паскаль, Си, Модула-2, Ада и другие), а

также некоторые специализированные (например, язык обработки

списочных структур Лисп). Кроме того, большое распространение

получили языки, связанные с узкими предметными областями,

такие, как входные языки пакетов прикладных программ.

Для некоторых языков имеется довольно много реализаций.

Например, реализаций Паскаля, Модулы-2 или Си для ЭВМ типа

IBM/PC на рынке десятки.

С другой стороны, постоянно растущая потребность в новых

компиляторах связана с бурным развитием архитектур ЭВМ. Это

развитие идет по различным направлениям. Совершенствуются

старые архитектуры как в концептуальном отношении, так и по

отдельным, конкретным линиям. Это можно проиллюстрировать на

примере микропроцессора Intel-80X86. Последовательные версии

этого микропроцессора 8086, 80186, 80286, 80386, 80486, 80586

отличаются не только техническими характеристиками, но и, что

более важно, новыми возможностями и, значит, изменением

(расширением) системы команд. Естественно, это требует новых

компиляторов (или модификации старых). То же можно сказать о

микропроцессорах Motorola 68010, 68020, 68030, 68040.

В рамках традиционных последовательных машин возникает

большое число различных направлений архитектур. Примерами

могут служить архитектуры CISC, RISC. Такие ведущие фирмы, как

Intel, Motorola, Sun, DEC, начинают переходить на выпуск машин

с RISC-архитектурами. Естественно, для каждой новой системы

команд требуется полный набор новых компиляторов с

распространенных языков.

Наконец, бурно развиваются различные параллельные

архитектуры. Среди них отметим векторные, многопроцессорные, с

широким командным словом (вариантом которых являются

суперскалярные ЭВМ). На рынке уже имеются десятки типов ЭВМ с

параллельной архитектурой, начиная от супер-ЭВМ (Cray, CDC и

другие), через рабочие станции (например, IBM/RS-6000) и

кончая персональными (например, на основе микропроцессора I-


860). Естественно, для каждой из машин создаются новые

компиляторы для многих языков программирования. Здесь

необходимо также отметить, что новые архитектуры требуют

разработки совершенно новых подходов к созданию компиляторов,

так что наряду с собственно разработкой компиляторов ведется и

большая научная работа по созданию новых методов трансляции.


1.2. Структура компилятора
Обобщенная структура компилятора и основные фазы компиляции

показаны на рис. 1.1.

На фазе лексического анализа (ЛА) входная программа,

представляющая собой поток символов, разбивается на лексемы -

слова в соответствии с определениями языка. Основным

формализмом, лежащим в основе реализации лексических

анализаторов, являются конечные автоматы и регулярные

выражения. Лексический анализатор может работать в двух

основных режимах: либо как подпрограмма, вызываемая

синтаксическим анализатором за очередной лексемой, либо как

полный проход, результатом которого является файл лексем.

В процессе выделения лексем ЛА может как самостоятельно

строить таблицы имен и констант, так и выдавать значения для

каждой лексемы при очередном обращении к нему. В этом случае

таблица имен строится в последующих фазах (например, в

процессе синтаксического анализа).


+-------------+ +-------------+ +-----------------+

| Лексический |-->| Диагностика | |+---------------+|

Вход | анализ | +-------------+ || Поток лексем +||

---->|-------------|------------------>|| таблицы имен ||-+

| Конечные | || и констант || |

| автоматы | |+---------------+| |

+-------------+ +-----------------+ |

+-----------------------------------------------+

v


+-------------------+ +-------------+ +------------------+

| Синтаксический |->| Диагностика | |+----------------+|

| анализ | +-------------+ || Дерево разбора ||

|-------------------+----------------> || + таблицы ||+

| Контекстно-сво- | || имен и констант|||

| бодные грамматики | |+----------------+||

+-------------------+ +------------------+|

+------------------------------------------------+

v

+-------------+ +-----------++----------------------+

| Контекстный |-->|Диагностика||+--------------------+|

| анализ | +-----------+|| Атрибутированное ||

|-------------|--------------->|| дерево или дерево ||-+

| Атрибутные | || + таблица символов || |

| грамматики | |+--------------------+| |

+-------------+ +----------------------+ |

+--------------------------------------------+

v

+----------------+ +--------------------------+

| Генерация | |+------------------------+|

| промежуточного | || Промежуточная форма ||

| представления | || (префиксная, пост- ||

|----------------|--->|| фиксная, тройки и др.)||---+

| СУ-трансляция | |+------------------------+| |

+----------------+ +--------------------------+ |

+--------------------------------------------+

| +-------------------------------------+

v v |

+-------------+ +-------------------------+ |

| Оптимизация | |+-----------------------+| |

|-------------|-->|| Промежуточная форма || |

| Потоковый | || (ориентированный граф)||--> |

| анализ | |+-----------------------+| |

+-------------+ +-------------------------+ |

+----------------------------------------+

|

v

+-----------------------+ +-------------+

| Генерация кода | |+-----------+|

|-----------------------+---->|| ||

| Таблицы решений, | || Объектный ||

| динамическое | || модуль ||

| программирование и др.| |+-----------+|

+-----------------------+ +-------------+
Рис. 1.1
На этапе ЛА обнаруживаются некоторые (простейшие) ошибки

(недопустимые символы, неправильная запись чисел,

идентификаторов и др.).

Основная задача синтаксического анализа - разбор структуры

программы. Как правило, под структурой понимается дерево,

соответствующее разбору в контекстно-свободной грамматике

языка. В настоящее время чаще всего используется либо LL(1)-

анализ (и его вариант - рекурсивный спуск), либо LR(1)-анализ

и его варианты (LR(0), SLR(1), LALR(1) и другие). Рекурсивный

спуск чаще используется при ручном программировании

синтаксического анализатора, LR(1) - при использовании систем

автоматизации построения синтаксических анализаторов.

Результатом синтаксического анализа является синтаксическое

дерево со ссылками на таблицу имен. В процессе синтаксического

анализа также обнаруживаются ошибки, связанные со структурой

программы.

На этапе контекстного анализа выявляются зависимости между

частями программы, которые не могут быть описаны контекстно-

свободным синтаксисом. Это в основном связи "описание-

использование", в частности анализ типов объектов, анализ

областей видимости, соответствие параметров, метки и другие. В

процессе контекстного анализа строится таблица символов,

которую можно рассматривать как таблицу имен, пополненную

информацией об описаниях (свойствах) объектов.

Основным формализмом, использующимся при контекстном


анализе, являются атрибутные грамматики. Результатом работы

фазы контекстного анализа является атрибутированное дерево

программы. Информация об объектах может быть как

рассредоточена в самом дереве, так и сосредоточена в отдельных

таблицах символов. В процессе контекстного анализа также могут

быть обнаружены ошибки, связанные с неправильным

использованием объектов.

Затем программа может быть переведена во внутреннее

представление. Это делается для целей оптимизации и/или

удобства генерации кода. Еще одной целью преобразования

программы во внутреннее представление является желание иметь

переносимый компилятор. Тогда только последняя фаза (генерация

кода) является машинно-зависимой. В качестве внутреннего

представления может использоваться префиксная или постфиксная

запись, ориентированный граф, тройки, четверки и другие.

Фаз оптимизации может быть несколько. Оптимизации обычно

делят на машинно-зависимые и машинно-независимые, локальные и

глобальные. Часть машинно-зависимой оптимизации выполняется на

фазе генерации кода. Глобальная оптимизация пытается принять

во внимание структуру всей программы, локальная - только

небольших ее фрагментов. Глобальная оптимизация основывается

на глобальном потоковом анализе, который выполняется на графе

программы и представляет по существу преобразование этого

графа. При этом могут учитываться такие свойства программы,

как межпроцедурный анализ, межмодульный анализ, анализ

областей жизни переменных и т.д.

Наконец, генерация кода - последняя фаза трансляции.

Результатом ее является либо ассемблерный модуль, либо

объектный (или загрузочный) модуль. В процессе генерации кода

могут выполняться некоторые локальные оптимизации, такие как


распределение регистров, выбор длинных или коротких переходов,

учет стоимости команд при выборе конкретной последовательности

команд. Для генерации кода разработаны различные методы, такие

как таблицы решений, сопоставление образцов, включающее

динамическое программирование, различные синтаксические

методы.

Конечно, те или иные фазы транслятора могут либо

отсутствовать совсем, либо объединяться. В простейшем случае

однопроходного транслятора нет явной фазы генерации

промежуточного представления и оптимизации, остальные фазы

объединены в одну, причем нет и явно построенного

синтаксического дерева.

Глава 2. Лексический анализ
Основная задача лексического анализа - разбить входной текст,

состоящий из последовательности одиночных символов, на

последовательность слов, или лексем, т.е. выделить эти слова

из непрерывной последовательности символов. Все символы

входной последовательности с этой точки зрения разделяются на

символы, принадлежащие каким-либо лексемам, и символы,

разделяющие лексемы (разделители). В некоторых случаях между

лексемами может и не быть разделителей. С другой стороны, в

некоторых языках лексемы могут содержать незначащие символы

(пробел в Фортране). В Си разделительное значение символов-

разделителей может блокироваться ('\' в конце строки внутри

"...").

Обычно все лексемы делятся на классы. Примерами таких

классов являются числа (целые, восьмеричные,

шестнадцатиричные, действительные и т.д.), идентификаторы,

строки. Отдельно выделяются ключевые слова и символы

пунктуации (иногда их называют символы-ограничители). Как

правило, ключевые слова - это некоторое конечное подмножество

идентификаторов. В некоторых языках (например, ПЛ/1) смысл


лексемы может зависеть от ее контекста и невозможно провести

лексический анализ в отрыве от синтаксического.

С точки зрения дальнейших фаз анализа лексический анализатор

выдает информацию двух сортов: для синтаксического

анализатора, работающего вслед за лексическим, существенна

информация о последовательности классов лексем, ограничителей

и ключевых слов, а для контексного анализа, работающего вслед

за синтаксическим, важна информация о конкретных значениях

отдельных лексем (идентификаторов, чисел и т.д.). Поэтому

общая схема работы лексического анализатора такова. Сначала

выделяем отдельную лексему (возможно, используя символы-

разделители). Если выделенная лексема - ограничитель, то он

(точнее, некоторый его признак) выдается как результат

лексического анализа. Ключевые слова распознаются либо явным

выделением непосредственно из текста, либо сначала выделяется

идентификатор, а затем делается проверка на принадлежность его

множеству ключевых слов. Если да, то выдается признак

соответствующего ключевого слова, если нет - выдается признак

идентификатора, а сам идентификатор сохраняется отдельно. Если

выделенная лексема принадлежит какому-либо из других классов

лексем (число, строка и т.д.), то выдается признак класса

лексемы, а значение лексемы сохраняется.

Лексический анализатор может работать или как

самостоятельная фаза трансляции, или как подпрограмма,

работающая по принципу "дай лексему". В первом случае (рис.

2.1) выходом лексического анализатора является файл лексем, во

втором (рис. 2.2) лексема выдается при каждом обращении к

лексическому анализатору (при этом, как правило, тип лексемы

возвращается как значение функции "лексический анализатор", а


значение передается через глобальную переменную). С точки

зрения формирования значений лексем, принадлежащих классам

лексем, лексический анализатор может либо просто выдавать

значение каждой лексемы и в этом случае построение таблиц

переносится на более поздние фазы, либо он может

самостоятельно строить таблицы объектов (идентификаторов,

строк, чисел и т.д.). В этом случае в качестве значения

лексемы выдается указатель на вход в соответствующую таблицу.


+------------------+

| Синт. анализатор |<-----+

+------------------+ |

^| |

+---------------------+ || +----------+

| Тип, Значение | ... | Тип || | Значение |

+---------------------+ лексемы || +----------+

| |v ^

| +---------+ +------------------+ |

+--->| Таблица | | Лекс. анализатор |------+

+---------+ +------------------+

Файл лексем "Дай лексему"
Рис. 2.1 Рис. 2.2


Работа лексического анализатора описывается формализмом

конечных автоматов. Однако непосредственное описание конечного

автомата неудобно практически. Поэтому для описания

лексических анализаторов, как правило, используют либо

формализм регулярных выражений, либо формализм контекстно

свободных грамматик, а именно подкласса автоматных, или

регулярных, грамматик. Все три формализма (конечных автоматов,

регулярных выражений и автоматных грамматик) имеют одинаковую

выразительную мощность. По описанию лексического анализатора в

виде регулярного выражения или автоматной грамматики строится

конечный автомат, распознающий соответствующий язык.


2.1. Регулярные множества и регулярные выражения

Пусть T - конечный алфавит. Регулярное множество в алфавите T


определяется рекурсивно следующим образом (знаком '<-' будем

обозначать принадлежность множеству, знаком '<=' включение):
(1) {} (пустое множество) - регулярное множество в алфавите

T;
(2) {a} - регулярное множество в алфавите T для каждого a<-

T;
(3){е} - регулярное множество в алфавите T (e - пустая

цепочка);
(4) если P и Q - регулярные множества в алфавите T, то

таковы же и множества
(а) P U Q (объединение),
(б) PQ (конкатенация, т.е. множество pq, p<-P, q<-Q),
(в) P* (итерация: P*={e} U P U PP U...;
(5) ничто другое не является регулярным множеством в

алфавите T.
Итак, множество в алфавите T регулярно тогда и только тогда,

когда оно либо {}, либо {e}, либо {a} для некоторого a<-T,

либо его можно получить из этих множеств применением конечного

числа операций объединения, конкатенации и итерации.

Приведенное выше определение регулярного множества

одновременно определяет и форму его записи, которую будем

называть регулярным выражением. Для сокращенного обозначения

выражения PP* будем пользоваться записью P+ и там, где это

необходимо, будем использовать скобки. В этой записи наивысшим

приоритетом обладает операция *, затем конкатенация и,

наконец, операция U, для записи которой иногда будем

использовать значок '|'. Так, 0|10* означает (0|(1(0*))).

Кроме того, мы будем использовать запись вида
d1 = r1

d2 = r2

.......

dn = rn


где di - различные имена, а каждое ri - регулярное выражение

над символами T U {d1,d2,...,di-1}, т.е. символами основного

алфавита и ранее определенными символами. Таким образом, для

любого ri можно построить регулярное выражение над Т, повторно

заменяя имена регулярных выражений на обозначаемые ими


регулярные выражения.
Пример 2.1. Несколько примеров регулярных выражений и

обозначаемых ими множеств
Идентификатор - это регулярное выражение
Идентификатор = Буква (Буква|Цифра)*

Буква = {a,b,...,z}

Цифра = {0,1,...,9}
Число в десятичной записи - это регулярное выражение
Целое = Цифра+

Дробная_часть = . Целое | е

Спепень = ( Е ( + | - | е ) Целое ) | е

Число = Целое Дробная_часть Степень


Ясно, что для каждого регулярного множества можно найти по

крайней мере одно регулярное выражение, обозначающее это

множество. И обратно: для каждого регулярного выражения можно

построить регулярное множество, обозначаемое этим выражением.

Для каждого регулярного множества существует бесконечно много

обозначающих его регулярных выражений. Будем говорить, что два

регулярных выражения равны, если они обозначают одно и то же

множество.


2.2. Конечные автоматы
Недетерминированный конечный автомат (НКА) - это пятерка

M=(Q,T,D,Q0,F), где
(1) Q - конечное множество состояний;
(2) T - конечное множество допустимых входных символов;
(3) D - функция переходов, отображающая множество QxT во

множество подмножеств множества Q и определяющая

поведение управляющего устройства;
(4) Q0<=Q - множество начальных состояний управляющего

устройства;
(5) F<=Q - множество заключительных состояний.
Детерминированный конечный автомат (ДКА) - это пятерка

M=(Q,T,D,q0,F), где
(1) Q - конечное множество состояний;
(2) T - конечное множество допустимых входных символов;
(3) D - функция переходов, отображающая множества QxT в

множество Q и определяющая поведение управляющего

устройства;
(4) q0<-Q - начальное состояние управляющего устройства;

(5) F<=Q - множество заключительных состояний.

Работа конечного автомата представляет собой некоторую

последовательность шагов, или тактов. Такт определяется

текущим состоянием управляющего устройства и входным символом,

обозреваемым в данный момент входной головкой. Сам шаг состоит

из изменения состояния и сдвига входной головки на одну ячейку

вправо (рис. 2.3).

+-----------+

| Состояние |

+-----------+

|

v

+---------------------------------------+

| | a | .............. |

+---------------------------------------+

Прочитанная Текущий Непрочитанная

часть входной входной часть входной

входной цепочки символ цепочки
Рис. 2.3
Текущее состояние управляющего устройства, символ под головкой

и цепочка символов вправо от головки называются конфигурацией

автомата. Конфигурация (q0,w) называется начальной, а пара

(q,e), где q<-F, называется заключительной (или допускающей).
|

v

+---+

| 1 |

+---+

| Цифра

+------ v

| \---+Не (цифра,Е,"." +-----+

| Цифра | 2 |--------------->|| 3 ||

| /---\ +-----+

+------ |. \ E

v --------------------+

+---+ |

| 4 | |

+---+ |

| Цифра |

+------- v |

| \--- Не цифра,Е +-----+ |

| Цифра | 5 |------------>|| 6 || |

| /--- +-----+ |

+------- |E |

v |

+---+ |

| 7 |<--------------------+

+---\

+,- | \ Цифра

v \

+---+ |

| 8 | |

+---+ |

Цифра | /

+------- v /

| \---/ Не цифра +------+

| Цифра | 9 |--------->|| 10 ||

| /--- +------+


+-------
Рис. 2.4


Такт автомата M представляется бинарным отношением |-,

определенным на конфигурациях: отношение имеет место, если

есть переход из конфигурации (q1,w1) в конфигурацию (q2,w2).

Отношения |-+ и |-* - это, соответственно, транзитивное и

рефлексивно-транзитивное замыкание отношения |-. Говорят, что

автомат M допускает цепочку w, если (q0,w)|-*(q,e) для

некоторого q<-F. Языком, допускаемым (распознаваемым,

определяемым) автоматом M, (обозначается L(M)), называется

множество входных цепочек, допускаемых автоматом M. Т.е.
L(M)={w | w<-T* и (q0,w)|-*(q,e) для некоторого q<-F}
Конечный автомат может быть изображен графически в виде

графа, в котором каждому состоянию соответствует вершина, а

дуга, помеченная символом a, соединяет две вершины p и q, если

функция переходов содержит (q,a)->p. На диаграмме выделяются

конечные состояния (в примерах выше двойным контуром).
Пример 2.2. Диаграмма для чисел языка Паскаль приведена на

рис. 2.4.


2.3. Построение детерминированного конечного автомата по

регулярному выражению.
Приведем теперь алгоритм построения детерминированного

конечного автомата по регулярному выражению [1]. К регулярному

выражению (сокращенно РВ) r добавим маркер конца: (r)#. После

построения ДКА для расширенного РВ легко построить ДКА для

исходного РВ: все состояния ДКА из которых есть переход в

конечное с чтением символа "#", можно считать конечными, а

символ "#" и соответствующие переходы удалить.

Представим РВ в виде дерева, листья которого - терминальные

символы, а внутренние вершины - операции "." (конкатенации),

"U" (объединение), "*" (итерация).

Каждому листу дерева (кроме e-листьев) припишем уникальный


номер и ссылаться на него будем, с одной стороны, как на

позицию в дереве и, с другой стороны, как на позицию символа,

соответствующего листу.

Теперь, обходя дерево T сверху-вниз слева-направо, вычислим

четыре функции: nullable, firstpos, lastpos и followpos.

Функции nullable, firstpos и lastpos определены на узлах

дерева, а followpos - на множестве позиций. Значением всех

функций, кроме nullable, является множество позиций. Функция

followpos вычисляется через три остальные функции.

Функция firstpos(n) для каждого узла n синтаксического

дерева регулярного выражения дает множество позиций, которые

соответствуют первым символам в подцепочках, генерируемых

подвыражением с вершиной в n. Аналогично, lastpos(n) дает

множество позиций, которым соответствуют последние символы в

подцепочках, генерируемых подвыражениями с вершиной n. Для

узлов n, поддеревья которых (т.е. дерево, у которого узел n

является корнем) могут породить пустое слово, определим

nullable(n)=true, а для остальных узлов false.
узел n nullable(n) firstpos(n) lastpos(n)

---------------------------------------------------------

лист е | true | 0 | 0

--------+-------------+------------------+--------------

лист i | false | {i} | {i}

--------+-------------+------------------+--------------

U | nullable(a) | firstpos(a) | lastpos(a)

/ \ | or | U | U

a b | nullable(b) | firstpos(b) | lastpos(b)

--------+-------------+------------------+--------------

. | nullable(a) | if nullable(a) |if nullable(b)

/ \ | and | then firstpos(a) |then lastpos(a)

| | U firstpos(b) | U lastpos(b)

a b | nullable(b) | else firstpos(a) |else lastpos(b)

--------+-------------+------------------+--------------


* | | |

| | true | firstpos(a) | lastpos(a)

a | | |

--------------------------------------------------------
Рис. 2.5
Таблица для вычисления функций nullable и firstpos приведена

на рис. 2.5. Вычисление функции lastpos строится аналогично.
{1,2,3}.{6}

/ \

{1,2,3}.{5} {6}#{6}

/ \ позиция | followpos

{1,2,3}.{4} {5}b{5} --------+-------------

/ \ 1 | {1,2,3}

{1,2,3}.{3} {4}b{4} 2 | {1,2,3}

/ \ 3 | {4}

{1,2}*{1,2} {3}a{3} 4 | {5}

| 5 | {6}

{1,2}U{1,2} 6 | -

/ \ ----------------------

{1}a{1} {2}b{2}

Рис. 2.6 Рис. 2.7
Пример 2.3. Функции firstpos и lastpos для выражения (a+b)abb#

приведены на рис. 2.6. Слева от каждой вершины значение

firstpos, справа - lastpos. Заметим, что эти функции могут

быть вычислены за один обход дерева.

Если i - позиция, то followpos(i) есть множество позиций j

таких, что существует некоторая строка ...cd..., входящая в

язык, описываемый РВ, такая, что i - соответствует этому

вхождению c, а j - вхождению d.

Функция followpos может быть вычислена также за один обход

дерева по следующим двум правилам
1. Пусть n - внутренний узел с операцией "." (конкатенация),

a,b - его потомки. Тогда для каждой позиции i, входящей в

lastpos(a), добавляем к множеству значений followpos(i)

множество firstpos(b).
2. Пусть n - внутренний узел с операцией "*" (итерация), a -

его потомок. Тогда для каждой позиции i, входящей в

lastpos(a), добавляем к множеству значений followpos(i)

множество firstpos(а).
Для примера 2.3 значения функции followpos приведены на рис.

2.7.

Функция followpos позволит теперь сразу построить


детерминированный конечный автомат с помощью следующего

алгоритма.
Алгоритм 2.1. Прямое построение ДКА по регулярному выражению.
Будем строить множество состояний автомата Dstates и помечать

их. Состояния ДКА соответствуют множествам позиций. Начальным

состоянием будет состояние firstpos(root), где root - вершина

синтаксического дерева регулярного выражения, конечными - все

состояния, содержащие позиции, связанные с символом "#".

Сначала в Dstates имеется только одно непомеченное состояние

firstpos(root).
while есть непомеченное состояние T в Dstates do

пометить T;

for каждого входного символа a<-T do

пусть символу a в T соответствуют позиции

p1,...,pi, и пусть S=U followpos(pi)

i

Если S не пусто и S не принадлежит Dstates, то

добавить непомеченное состояние S в Dstates

(рис. 2.8)

Функцию перехода Dtran для T и a определить как

Dtran(T,a)=S.

end;

end;


Для примера 2.3 вначале T={1(a),2(b),3(a)}. Последовательность

шагов алгоритма приведена на рис. 2.9. В результате будет

построен детерминированный конечный автомат, изображенный на

рис. 2.10. Состояния автомата обозначаются как множества

позиций, например {1,2,3}, конечное состояние заключено в

квадратные скобки [1,2,3,6].
a: {1,2,3,4} T={1(a),2(b),3(a)}
b: {1,2,3} / / \

v v v

{1,2,3} {4}
+------------+ +----+ a: {1,2,3,4} T={1(a),2(b),3(a),4(b)}

|+----+ | | | b: {1,2,3,5} / / | |

||b | | | | v v v v

||----+------+-+>Sb | {1,2,3} {4} {5}

||{pb}|+----+| |----|

|+----+|a || | | a: {1,2,3,4} T={1(a),2(b),3(a),5(b)}

| |----++-+>Sa | b: {1,2,3,6} / / | |

| |{pa}|| | | v v v v


| +----+| | | {1,2,3} {4} {6}

+------------+ +----+

a: {1,2,3,4} T={1(a),2(b),3(a),6(#)}

b: {1,2,3} / / |

v v v

{1,2,3} {4}
Рис. 2.8 Рис. 2.9


+--------------------b--------------------+

| +-----------a--------------+ |

+-+ | +-+ | +----a-----+ | |

|b| | |a| | | | | |

V | V a V | V V b | b | |

---->{1,2,3}--->{1,2,3,4}----->{1,2,3,5}----->[1,2,3,6]
Рис. 2.10


2.4. Построение детерминированного конечного автомата с

минимальным числом состояний
Рассмотрим теперь алгоритм построения ДКА с минимальным числом

состояний, эквивалентного данному ДКА [2].
Алгоритм 2.2. Построение ДКА с минимальным числом состояний.
Шаг 1. Строим начальное разбиение П множества состояний из

двух групп: заключительное состояние и остальные S-F.
Шаг 2. Применяем к П следующую процедуру и получаем новое

разбиение Пnew (рис. 2.11):
for каждой группы G в П do

разбиваем G на подгруппы так, чтобы

состояния s и t из G оказались в одной

группе тогда и только тогда, когда для каждого

входного символа a состояния s и t имеют

переходы по a в состояния из одной и той же

группы в П;

заменяем G в Пnew на множество всех

полученных подгрупп

end;


+---+ +-+ +-+

+-----|s,t|-----+ |s| |t|

| +---+ | +-+ +-+

|a a| | |

| +---+ | v v

+---->| |<----+ +-+ +-+

+---+ | | | |

+-+ +-+

Рис. 2.11


Шаг 3. Если Пnew=П, полагаем Пres=П и переходим к шагу 4,

иначе повторяем шаг 2 с П:=Пnew.
Шаг 4. Выберем по одному состоянию из каждой группы в

разбиении Пres в качестве представителя для этой группы.


Представители будут состояниями приведенного ДКА М'. Пусть s -

представитель. Предположим, что на входе a в M существует

переход из t. Пусть r - представитель группы t. Тогда М' имеет

переход из a в r по a. Пусть начальное состояние М' -

представитель группы, содержащей начальное состояние s0

исходного M, и пусть заключительные состояния М' -

представители в F. Отметим, что каждая группа Пres либо

состоит только из состояний из F, либо не имеет состояний из

F.
Шаг 5. Если М' имеет мертвое состояние, т.е. состояние d,

которое не является допускающим и которое имеет переходы в

себя по любому символу, удалим его из М'. Удалим также все

состояния, не достижимые из начального.


2.5. Программирование лексических анализаторов
Лексический анализатор, как правило, вызывается как

подпрограмма. В результате обращения к ЛА вырабатываются как

минимум два результата: тип выбранной лексемы и значение (или

указатель на значение) для классов лексем (идентификаторов,

чисел, строк и т.д.). Само значение передается, если ЛА не

работает с таблицей имен. Если же ЛА сам формирует таблицу

имен, то он выдает указатель на имя. Обычно ЛА оформляется как

процедура-функция, вырабатывающая тип лексемы и заносящая в

некоторую глобальную переменную значение лексемы, если это

необходимо. Помимо значения лексемы, эта глобальная переменная

может содержать некоторую дополнительную информацию: номер

текущей строки, номер символа в строке и другую. Эта

информация может использоваться в различных целях, например,

для диагностики.

Тело ЛА представляет собой диаграмму переходов

соответствующего конечного автомата. Отдельная проблема -

анализ ключевых слов. Как правило, ключевые слова - это


выделенные идентификаторы. Поэтому возможны два основных

способа выделения ключевых слов: либо очередная лексема

сначала диагностируется на совпадение с каким-либо ключевым

словом и в случае неуспеха делается попытка выделить лексему

из какого-либо класса, либо, наоборот, после выборки лексемы

идентификатора требуется заглянуть в таблицу ключевых слов на

предмет сравнения. Подробнее о механизмах поиска в таблицах

будет сказано ниже (гл. 7), здесь отметим только, что поиск

ключевых слов может вестись либо в основной таблице имен и в

этом случае в нее до начала работы ЛА загружаются ключевые

слова, либо в отдельной таблице. При первом способе все

ключевые слова непосредственно встраиваются в конечный автомат

лексического анализатора, во втором конечный автомат содержит

только разбор идентификаторов.

В некоторых языках (например, ПЛ/1 или Фортран) ключевые

слова могут использоваться в качестве обычных идентификаторов.

В этом случае работа ЛА не может идти независимо от работы

синтаксического анализатора. В Фортране возможны, например,

следующие строки:
DO 10 I=1,25 и

DO 10 I=1.25
В первом случае строка - это заголовок цикла DO, во втором -

оператор присваивания. Поэтому, прежде чем можно будет

выделить лексему, лексический анализатор должен заглянуть

довольно далеко.

Еще сложнее дело в ПЛ/1. Здесь возможны такие операторы:
IF THEN THEN THEN = ELSE; ELSE ELSE = THEN или

DECLARE (ARG1, ARG2, ...., ARGn) ...
и только в зависимости от того, что стоит после ")", можно

определить, является ли DECLARE именем подпрограммы или

объявлением. Длина такой строки может быть сколь угодно

большой и уже невозможно отделить фазу синтаксического анализа


от фазы лексического анализа.

Рассмотрим несколько подробнее вопросы программирования ЛА.

Основная операция лексического анализатора, на которую уходит

большая часть времени его работы, - это взятие очередного

символа и проверка на принадлежность его некоторому диапазону.

Например, основной цикл при выборке числа в простейшем случае

может выглядеть следующим образом:
while (Insym<='9' & Insym>='0') do

...

end;


Проверки на принадлежность диапазону сравнениями можно

заменить проверками на принадлежность диапазону множества:
while (Insym in ['0'..'9']) do

...

end;
Однако с точки зрения качества кода эти программы примерно

эквивалентны. Программу можно значительно улучшить следующим

образом [2]. Пусть LETTER, DIGIT, BLANK, SLESS - элементы

перечислимого типа. Введем массив MAP, входами которого будут

символы, значениями - типы символов. Инициализируем массив MAP

следующим образом:
MAP['A']:=LETTER;

........

MAP['z']:=LETTER;

MAP['0']:=DIGIT;

........


MAP['9']:=DIGIT

MAP[' ']:=BLANK;

MAP['<']:=SLESS;

........


Тогда приведенный выше цикл примет следующую форму:
while (Map[Insym]=Digit) do

...

end;


Выделение ключевых слов может осуществляться после выделения

идентификаторов. ЛА работает быстрее, если ключевые слова

выделяются непосредственно.
+----------+

------------------->| ключевое |

+---+ f +---/не буква и не цифра | слово if |

| i |--->| | +----------+

+---\ +---\буква или цифра +---------------+

| \ ---------------->| Идентификатор |

n| \ +---------------+


| \ ^ ^ ^

| \ Не f и не t | | |

v --------------------------+ | |

+---+ Не t | |

| |--------------------------------+ |

+---+ |

t| |

v |

+---+ Буква или цифра |

| |-----------------------------------+

+---+

| Не буква и не цифра

v

+--------------------+

| Ключевое слово int |

+--------------------+
Рис. 2.12


Для этого строится конечный автомат, описывающий множество

ключевых слов. На рис. 2.12 приведен фрагмент такого автомата.

Рассмотрим пример программирования этого конечного автомата на

языке Си, приведенный в [3]:
case 'i':

if (cp[0]=='f' &&!(map[cp[1]] & (digit | letter)))

{cp++; return IF;}

if (cp[0]=='n' && cp[1]=='t'

&&!(map[cp[2]] & (digit | letter)))

{cp+=2; return INT;}


Здесь cp - указатель текущего символа. В массиве map классы

символов кодируются битами.

Поскольку ЛА анализирует каждый символ входного потока, его

скорость существенно зависит от скорости выборки очередного

символа входного потока. В свою очередь, эта скорость во

многом определяется схемой буферизации. Рассмотрим несколько

возможных эффективных схем буферизации.

В первой схеме используется буфер, размер которого - двойная

длина блока обмена N (рис. 2.13).
N N

+----------------+ +-------------------+

| | | | # | # |

+----------------+ +-------------------+

^ ^ ^ ^

| |Продвижение | |Продвижение

|Начало лексемы (cp) |Начало лексемы
Рис. 2.13 Рис. 2.14


Чтобы не читать каждый символ отдельно, в каждую из половин

буфера одной командой чтения считывается N символов. Если на


входе осталось меньше N символов, в буфер помещается

специальный символ (eof). На буфер указывают два указателя:

продвижение и начало. Между указателями размещается текущая

лексема. Вначале они оба указывают на первый символ выделяемой

лексемы. Один из них, продвижение, продвигается вперед, пока

не будет выделена лексема, и устанавливается на ее конец.

После обработки лексемы оба указателя устанавливаются на

символ, следующий за лексемой. Если указатель продвижение

переходит середину буфера, правая половина заполняется новыми

N символами. Если указатель продвижение переходит правую

границу буфера, левая половина заполняется N символами и

указатель продвижение устанавливается на начало буфера.

При каждом продвижении указателя необходимо проверять, не

достигли ли мы границы одной из половин буфера. Для всех

символов, кроме лежащих в конце половин буфера, требуются две

проверки. Число проверок можно свести к одной, если в конце

каждой половины поместить дополнительный 'сторожевой' символ
'#' (рис. 2.14).
В этом случае почти для всех символов делается единственная

проверка на совпадение с '#' и только в случае совпадения

нужно проверить, достигли ли мы середины или правого конца.

В третьей схеме используются три указателя (рис. 2.15).

Непросмотренная часть буфера заключена между текущим и

границей (граница - это указатель на последний элемент

буфера). Анализ очередной лексемы начинается после

сканирования незначащих пробелов. Если после этого текущий

указывает на '#' в конце буфера, делается перезагрузка буфера

(предполагается, что '#' не может входить в состав лексемы).

Барьер выбирается таким образом, чтобы между барьером и

границей всегда помещалась любая лексема. Если начало


очередной лексемы оказывается правее барьера, то часть буфера

от текущего до границы переписывается левее буфера и буфер

перезагужается. Тем самым начало лексемы конкатенируется с ее

концом. Так обрабатывается ситуация, когда граница буфера

прошла через лексему.
+----------+ +-----+

| N | | N |

v v v v

+------------------+ +-------------+

| | |\n| | | | #|

+------------------+ +-------------+

| | |Граница | | |Граница

| |Барьер | |Барьер

|Текущий |Текущий

а) Пока текущий < барьер б) После чтения
Рис. 2.15


В результате большинство входных символов обрабатываются

непосредственно в буфере. Копируются только идентификаторы и

строковые константы в соответствующие таблицы.


2.6. Конструктор лексических анализаторов LEX
Для автоматизации разработки лексических анализаторов было

разработано довольно много средств. Как правило, входным

языком для них служат либо КС (автоматные) грамматики, либо

язык регулярных выражений. Одной из наиболее распространенных

систем является LEX, входным языком которого являются

регулярные выражения. LEX-программа состоит из трех частей:
Объявления

%%

Правила трансляции

%%

Вспомогательные процедуры


Секция объявлений включает объявления переменных, констант и

определения регулярных выражений. Правила трансляции LEX

программ имеют вид
p1 { действие_1 }

p2 { действие_2 }

...............

pn { действие_n }


где каждое pi - регулярное выражение, а каждое действие_i -

фрагмент программы, описывающий, какое действие должен сделать

лексический анализатор, когда образец pi сопоставляется


лексеме. В LEX действия записываются на Си.

Третья секция содержит вспомогательные процедуры,

необходимые для действий. Эти процедуры могут транслироваться

раздельно и загружаться с лексическим анализатором.

Лексический анализатор, сгенерированный LEX, взаимодействует

с синтаксическим анализатором следующим образом. При вызове

его синтаксическим анализатором лексический анализатор

посимвольно читает остаток входа, пока не находит самый

длинный префикс, который может быть сопоставлен одному из

регулярных выражений pi. Затем он выполняет действие_i. Как

правило, действие_i возвращает управление синтаксическому

анализатору. Если это не так, т.е. в соответствующем действии

нет возврата, то лексический анализатор продолжает поиск

лексем до тех, пока действие не вернет управление

синтаксическому анализатору. Повторный поиск лексем вплоть до

явной передачи управления позволяет лексическому анализатору

правильно обрабатывать пробелы и комментарии. Синтаксическому

анализатору лексический анализатор возвращает единственное

значение - тип лексемы. Для передачи информации о лексеме

используется глобальная переменная yylval.
Пример 2.4. На рис. 2.16 приведена LEX-программа.
%{ /*определения констант LT,LE,EQ,NE,GT,

GE,IF,THEN,ELSE,ID,NUMBER,RELOP например

через DEFINE или скалярный тип*/ %}

/*регулярные определения*/

delim [ \t\n]

ws {delim}+

letter [A-Za-z]

digit [0-9]

id {letter}({letter}|{digit})*

number {digit}+(\.{digit}+)?(E[+\-]?{digit}+)?

%%

{ws} {/* действий и возврата нет */}

if {return(IF);}

then {return(THEN);}

else {return(ELSE);}

{id} {yylval=install_id(); return(ID);}


{number} {yylval=install_num(); return(NUMBER);}

"<" {yylval=LT; return(RELOP);}

"<=" {yylval=LE; return(RELOP);}

"=" {yylval=EQ; return(RELOP);}

"<>" {yylval=NE; return(RELOP);}

">" {yylval=GT; return(RELOP);}

">=" {yylval=GE; return(RELOP);}

%%

install_id(){/*процедура, которая помещает лексему,

на первый символ которой указывает yytext,

длина которой равна yyleng, в таблицу

символов и возвращает указатель на нее*/

}

install_num(){/*аналогичная процедура для размещения

лексемы числа*/

}

Рис. 2.16.


В разделе объявлений, заключенном в скобки %{ и %},

перечислены константы, используемые правилами трансляции. Все,

что заключено в эти скобки, непосредственно копируется в

программу лексического анализатора lex.yy.c и не

рассматривается как часть регулярных определений или правил

трансляции. То же касается и вспомогательных процедур третьей

секции. На рис. 2.16 это процедуры install_id и install_num.

В секцию определений входят также некоторые регулярные

определения. Каждое такое определение состоит из имени и

регулярного выражения, обозначаемого этим именем. Например,

первое определенное имя - это delim. Оно обозначает класс

символов { \t\n}, т.е. любой из трех символов: пробел,

табуляция или новая строка. Второе определение - разделитель,

обозначаемый именем ws. Разделитель - это любая

последовательность одного или более символов-разделителей.

Слово delim должно быть заключено в скобки, чтобы отличить его

от образца, состоящего из пяти символов delim.

В определении letter используется класс символов. Сокращение

[A-Za-z] означает любую из прописных букв от A до Z или


строчных букв от a до z. В пятом определении для id для

группировки используются скобки, являющиеся метасимволами LEX.

Аналогично, вертикальная черта - метасимвол LEX, обозначающий

объединение.

В последнем регулярном определении number символ '+'

используется как метасимвол "одно или более вхождений", символ

'?' как метасимвол "ноль или одно вхождение". Обратная черта

используется для того, чтобы придать обычный смысл символу,

использующемуся в LEX как метасимвол. В частности, десятичная

точка в определении number обозначается как '\.', поскольку

точка сама по себе представляет класс, состоящий из всех

символов, за исключением символа новой строки. В классe

символов [+\-] обратная черта перед минусом стоит потому, что

знак минус используется как символ диапазона, как в [A-Z].

Если символ имеет смысл метасимвола, то придать ему обычный

свысл можно и по-другому, заключив его в кавычки. Так, в

секции правил трансляции шесть операций отношения заключены в

кавычки.

Рассмотрим правила трансляции, следующие за первым %%.

Согласно первому правилу, если обнаружено ws, т.е.

максимальная последовательность пробелов, табуляций и новых

строк, никаких действий не производится. В частности, не

осуществляется возврат в синтаксический анализатор.

Согласно второму правилу, если обнаружена последовательность

букв 'if', нужно вернуть значение IF, которое определено как

целая константа, понимаемая синтаксическим анализатором как

лексема 'if'. Аналогично обрабатываются ключевые слова 'then'

и 'else' в двух следущих правилах.

В действии, связанном с правилом для id, два оператора.

Переменной yylval присваивается значение, возвращаемое

процедурой install_id. Определение этой процедуры приведено в

разделе 3.1. Переменная yylval определена в программе

lex.yy.c, выходе LEX, и она доступна синтаксическому

анализатору. yylval хранит возвращаемое лексическое значение,

поскольку второй оператор в действии, return(ID), может только

возвратить код класса лексем.

Функция install_id заносит идентификаторы в таблицу

символов. Текущая лексема доступна благодаря двум указателям:

yytext и yyleng. Переменная yytext - это указатель на первый

символ лексемы, yyleng - это целое, дающее длину лексемы.

Например, при занесении идентификатора в таблицу могут быть

скопированы yyleng символов, начиная с yytext.

Аналогично обрабатываются числа в следующем правиле. В

последних шести правилах yylval используется для возврата кода

операции отношения, возвращаемое же функцией значение - это

код лексемы relop.

Если, например, в текущий момент лексический анализатор

обрабатывает лексему 'if', то этой лексеме соответствуют два

образца: 'if' и {id} и более длинной строки, соответствующей

образцу, нет. Поскольку образец 'if' предшествует образцу для

идентификатора, конфликт разрешается в пользу ключевого слова.

Такая стратегия разрешения конфликтов позволяет легко

резервировать ключевые слова.

Если на входе встречается '<=', то первому символу

соответствует образец '<', но это не самый длинный образец,

который соответствует префиксу входа. Стратегия выбора самого

длинного префикса легко разрешает такого рода конфликты.