ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:

Пример построения лексического анализатора.

12 3 4 5 6 7 Следующая ⇒

<идентификатор>::=<буква><буква или цифра>*

<буква>:: =а|b|...|2. <цифра>::=0|1|...|9 <число>::=<цифра>*

Столбцы 1 и 2 заполнены уже на входе, столбцы 3 и 4 на выходе лексического анализа.

					Входная строка	Выходная строка
	Ключевые слова	Разделители	Имена	Константы	Текст программы	Лексическая свертка
LI=3	LC = 3
	abs	+	lab1		program lab1 var s, i: integer; begin s:=0; for i:=1 to 10 do s:=s+i*i; end.	13 30 14 31 27 32 29 15 28 11 31 26 40 28 17 32 26 41 18 24 19 31 26 31 20 32 22 32 28 12
	begin	-	s
	end	*	i
	program	/
	var	(
	integer	)
	real	:=
	for	,
	to	;
	do	:

4. СИНТАКСИЧЕСКИЙ АНАЛИЗ.

4.1. Автоматы с магазинной памятью (МП – автоматы, МПА). (АУ-192)

МПА P есть семерка вида (Q, S, G, d, q ₀, z ₀, F), где Q – множество состояний автомата,

- входной алфавит, Г – магазинный алфавит, d: Q´(S È { e })´Г ®2^Q^´^G* - функция переходов, q ₀ Î Q – начальное состояние, z ₀ ÎG - начальный символ в магазине, F Î Q - множество финальных состояний автомата. В магазин можно писать(читать) только верхний символ.

Конфигурация автомата есть тройка (q, w, a) Î Q ´S^*´G^*, где q – текущее состояние, - часть цепочки, - содержимое всего магазина (верхним символом является самый левый?).

Такт работы автомата - это бинарное отношение на множестве конфигураций.

(q, aw, za) ⊢ (q¢, w, ga), если (q ¢, g) Î d (q, a, z). Такт невозможен, если a = e, т.е. магазин пуст.

Начальная конфигурация (q ₀, w, z ₀). Заключительная конфигурация (q, e, a), q Î F, a ÎG^*.

Цепочка допускается МП - автоматом, если из начальной конфигурации автомат может перейти в заключительную конфигурацию, т.е. (q ₀, w, z ₀) ⊢ * (q, e, a), q Î F.

Язык, определенный автоматом, есть множество цепочек, допускаемых автоматом.

L (P) = {w | (q ₀, w, z ₀) ⊢ * (q, e, a)}.

Для любой КС–грамматики G и порождаемого ей языка $ МП–автомат, что L (G) = L (P).

За один такт МП–автомат может заменить лишь один верхний символ магазина.

Автомат считается расширенным, если он за один такт может заменить цепочку.

Автомат P допускает цепочку w ÎS^* опустошением магазина, если (q ₀, w, z ₀) ⊢ ⁺ (q, e, e),

Le (P) - множество таких цепочек. Если P – МП–автомат, то P¢: Le (P) = L (P ¢).

Теорема. Утверждения (1)-(4) эквивалентны. (АУ-210)

(1) L = L (G) для КС–грамматики G (2) L = L (P ₁) для некоторого МПА P ₁

(3) L = Le (P ₂) для некоторого МПА P₂(4) L = L (P ₃) для некоторого расширенного МПА P₃

МПА P ^*= (Q, S, G, d, q ₀, z ₀, F) называется детерминированным, если " q Î Q, " a ÎS и " z Î G

| d (q,a,z) | + | d (q,e,z) | £ 1. Существуют КС-языки, которые нельзя определить детерминированными МПА. Но есть класс LR (k) КС-грамматик, для которого $ ДМПА.

Для ДМПА будем писать d (q, a, z)=(r, g) вместо {(r, g)}.

0 –лента осталась на месте, 1 – символ ленты прочитан.

Пример: G₀=({ а,+,*,(,)}, { Е, Т, F }, Е, Р), где Р = { Е ® Е + Т | Т, Т ® Т * F | F, F ® (Е) | а }

Построим недетерминированный автомат, допускающий язык L (G ₀). (АУ-204? 209? 328? 342?)

Пусть A – начальное, C – рабочее, а D – заключительное состояния автомата,

b - любой терминальный символ, $ – начальный символ магазина.

1. (A, b, $)® { (0, C, E $) } 4. (C, b, F)® { (0, C, (E)), (0, C, a) }

2. (C, b, E)® { (0, C, E+T), (0, C, T) } 5. (C, b, b)® { (1, C, e) }

3. (C, b, T)® { (0, C, T*F), (0, C, F) } 6. (C, e, $)® { (0, D, e) }

т.е. мы можем в магазине заменять символ на цепочку в соответствии с правилами КС-грамматики. На вход автомата поступает цепочка a + a * a.

(A, a+a*a, $) ⊢ ¹ (C, a+a*a, E $) ⊢ ^{2 a} (C, a+a*a, E+T $) ⊢ ^{2 b} (C, a+a*a, T+T $) ⊢ ^{3 b} (C, a+a*a, F+T $)

⊢ ^{4 b} (C, a+a*a, a+T $) ⊢ ⁵ (C, +a*a, +T $) ⊢ ⁵ (C, a*a, T $) ⊢ ^{3 a} (C, a*a, T*F $) ⊢ ^{3 b} (C, a*a, F*F $)

⊢ ^{4 b} (C, a*a, a*F $) ⊢ ⁵ (C, *a, *F $) ⊢ ⁵ (C, a, F $) ⊢ ⁵ (C, a, a $) ⊢ ⁵ (C, e, $) ⊢ ⁶ (D, e, e)

Т.о. цепочка допускается этим недетерминированным! МП-автоматом. Сложность задачи синтаксического анализа состоит в том, чтобы догадаться, какое из правил применить. Детерминированный автомат или только читает, или только не читает.???

Можно ли для G ₀ предложить детерминированный автомат? Да, но расширенный. Как связан МПА с деревом вывода КС-грамматики? В выводе МП-автомату надо как можно быстрее получить в магазине самый левый символ, равный самому левому символу ленты. Разобьём терминалы на классы: b Î{ a,+,*,(,)}; d Î{ a,+,*,(,), e }; m Î{+,(,$}; s Î{(,$}; t Î{+,), e?}; k Î{ a, e?)}.

По-прежнему A, С и D – начальное, рабочее и заключительное состояния автомата.

1. (A, b, $)® (1, C, b $) 6. (C, t, T+E)® (0, C, E) 11. (C, *, T)® (0, C, * T)

2. (C, d, a)® (0, C, F) 7. (C, t, Ts)® (0, C, Es) 12. (C, k, *)® (1, C, k *)

3. (C, d, )E()® (0, C, F) 8. (C, t, E)® (1, C, tE) 13. (C, e, ()® (1, C, $)?

4. (C, d, F*T)® (0, C, T) 9. (C, ), E)® (1, C, )E) 14. (C, e, E $)® (0, D, e)

5. (C, d, Fm)® (0, C, Tm) 10. (C, b, +)® (1, C, b +)

(A, a+a*a, $) ⊢ ¹ (C, +a*a, a $) ⊢ ² (C, +a*a, F $) ⊢ ⁵ (C, +a*a, T $) ⊢ ⁷ (C, +a*a, E $) ⊢ ⁸

(C, a*a, +E $) ⊢ ¹⁰ (C, *a, a+E $) ⊢ ² (C, *a, F+E $) ⊢ ⁵ (C, *a, T+E $) ⊢ ¹¹ (C, a, *T+E $) ⊢ ¹²

(aC, e, a*T+E $) ⊢ ² (C, e, F*T+E $) ⊢ ⁴ (C, e, T+E $) ⊢ ⁶ (C, e, E $) ⊢ ¹⁴ (D, e, e)
4.2. Нисходящий анализ.

Пример: G₀.

Выпишем левый разбор цепочки: 12463466.

Теперь правый разбор: 13646246.

Обычно правый разбор записывают в обратной форме:64264631.

Построим дерево поиска (левое). E

1 2

E+T T

1 2 3 4

E+T+T T+T T*F F

1 2 3 4 3 4 5 6

E+T+T+T T+T+T T*F+T F+T T*F*F F*F (E) a

Если грамматика имеет левую рекурсию, то процесс поиска может быть бесконечным, но если у неё правая рекурсия, то левое дерево поиска конечно. aÎ(S=Σ_TÈ Σ_N)^*, w ÎS^*.?

Если w Î L (G), то алгоритм СНАЧАЛА ВШИРЬ найдет её за конечное время.

Терминальным префиксом цепочки называется такой x Î Σ_T^*, что.a = xyz, y Î Σ_N, z Î Σ^*.

a согласуется с w, если терминальный префикс цепочки a является префиксом w.

В дереве будем стараться выбирать те вершины, у которых длина согласованной с искомой цепочкой части максимальна.

Алгоритм нисходящего МП-распознавателя. (АУ-326?)

Предполагается, что нет левой рекурсии.

Пользуемся: если цепочка не согласуется с входной цепочкой, то её не раскрываем.

1.Инициализация (выписываем корневую вершину).

2.Вниз по дереву поиска.

а) Вершина из стека объявляется текущей и удаляется из стека.

б) Если текущая цепочка не согласуется с входной цепочкой, то идти ВБОК.

Иначе если текущая цепочка совпадает с входной, то УСПЕХ,

иначе породить дочерние вершины, упорядочить их (по применимости правил) и записать в стек, идти ВНИЗ.

3.ВБОК:

Пример: Е1 – к Е применили 1-ое правило, если пошли ВБОК, то Е(1+1)=Е2

Имеем 2 стека: 1-й - Е1, 2-й – Е+Т, $

После применения ВБОК: 1-й – Е2, 2-й – Т, $

Попытка применить другое правило к тому же самому нетерминальному символу. Если другое правило есть, то увеличили цифру и ВНИЗ, иначе стираем букву, пытаемся увеличить цифру предыдущего, ВВЕРХ.

4.ВВЕРХ. Если вверх некуда, т.е. в стеке достигли дна (пуст), то НЕУДАЧА, иначе собственно ВВЕРХ.

НЕУДАЧА – слово не может быть порождено в грамматике, сообщение об ошибке, невозможности вывода.

УСПЕХ – во втором стеке записан левый разбор.

Замечания:

1.Алгоритм имеем плохие возможности локализации ошибки.

2.Алгоритм имеет экспоненциальную трудоёмкость, поэтому надо:

а) пусть грамматика не содержит правил с пустой правой частью, можно не рассматривать вершину с длиной цепочки;

б) правила упорядочивать по возрастанию вероятности использования.

3.Перед тем как строить дерево, подумайте, А СТОИТ ЛИ ЭТО ДЕЛАТЬ?

Если грамматика является LL(k)-грамматикой, то поиск закончится за линейное время.

4.3. Алгоритм Кока-Янгера-Касами. (АУ-352)

Полиномиальный алгоритм для любых грамматик. Трудоемкость O (n ³), память О (n ²), n =| |.

Вход: КС- грамматика в НФХ, без е -правил, входная цепочка w ÎS⁺, w = w ₁ w ₂… w_n.

Выход: таблица разбора Т для w. Нетерминал A Î t_ij Û AÞ⁺ w_i … w_j ₊ _i _-₁ = часть входной цепочки, начиная с i -го элемента, длиной j. j =1, n, j =1, n - i +1.

Пример: G: S АА | АS | b А SА | AS | a = abaab.

	A	S					A Î t ₁₁Û A Þ⁺ w ₁ = a
5,1	1,1					S Î t ₂₁Û S Þ⁺ w ₂ = b
	A	S	A	S			A Î t ₁₂Û A Þ⁺ w ₁ w ₂ = ab
5,1	2,1	4,1	1,2			S Î t ₂₃Û S Þ⁺ w ₂… w ₄ = baa
	A	S	S	A	S	t ₂₃ ^k=1₌ t ₂₁+ t ₃₂, t ₂₁´ t ₃₂={ SS }
4,2	1,1	1,2	5,1	2,1	^k=2₌ t ₂₂+ t ₃₁	t ₂₂´ t ₃₁={ AA }
	A	S	A	S	A	S
5,1	2,1	4,1	1,1	5,1	2,1
	A / 6	S / 3	A / 6	A / 6	S / 3

Дерево разбора:

1. Положим t_i ₁ = { A: (A® a_i)Î P } " i. Пусть известны t_ik " k = 1.. j -1.

2. Вычислим t_ij = { A | $ k Î1.. j -1 & (A ® BC) Î P & B Î t_ik & C Î t_i₊_k _, _j-_k }.

3. Повторять шаг 2, пока не заполним всю таблицу.

Замечания:

1.Если S Î t ₁ _n Û w Î L (G).

2.Желательно найти левый вывод. Можно в клетке указывать способ деления и правило.

3.Есть алгоритм Эрли, для однозначных грамматик-Т=О(n ²), для LL-грамматик-Т=О(n).

4.4. LL-грамматики и LL-распознаватели. (АУ-376)

Рассмотрим алгоритм для LL- грамматик с линейным временем и линейной памятью. Сложность состоит в том, что не всякая грамматика может быть приведена к LL-форме. Более того, даже вопрос «приводима ли грамматика к LL–форме?» алгоритмически неразрешим.

Определения:

1. Пусть a - левовыводимая цепочка в грамматике G, причем a = xb, x ÎS_T^*, b ÎS_NS_?^*È{ e }. Тогда х - терминальный префикс цепочки a (ее обработанная, законченная часть!).

2. Пусть k - целое, a ÎS^* - левовыводимая в грамматике G цепочка. Определим функцию

FIRST _k (a) = {wÎS_T^*| либо | w |< k & a Þ^* w, либо | w |= k & a Þ^* w x, для некоторого x ÎS^*}, т.е. все терминальные начала длины £ k.

3. КС-грамматика G называется LL (k) -грамматикой для некоторого k, если из w, x, y ÎS_T^* и существования 2-х левых! выводов

а) S Þ^* wAa Þ wba Þ^* w х и б) S Þ^* wAa Þ wga Þ^* wy,

для которых FIRST _k (х) =FIRST _k (y), следует b = g.

Второе определение: (A ® b),(A ® g)Î P & S Þ^* wAa следует, что FIRST _k (ba)ÇFIRST _k (ga)=Æ.

В частности, грамматика без е -правил G Î LL(1) Û FIRST₁() FIRST₁()=Æ для всех A ÎS_N.

Заметим, что если в грамматике есть правило с левой рекурсией, то должно быть и правило, выходящее из неё. В этом случае FIRST₁() FIRST₁()≠Æ и GÏLL(1).

k -предсказывающий алгоритм разбора: (АУ-385)

Пусть на входе цепочка x = ux ¢$,

u =FIRST _k (х) – аванцепочка из k символов.

Конфигурацию удобно задавать как (х, Xa $, p),

где Xa -цепь в стеке; p - цепь на выходе.

Начальная конфигурация задается (w$, x ₀$, e), где х ₀-начальный символ грамматики.

1.Если М(X, u)=(b, i), то (х, Xa, p) ⊢ (х, ba, p_i), т.е. в стеке замена X ® b, на выход пишем p_i.

2. Если М(X, u)= выброс & x = ax ², то (х, aa, p) ⊢ (х ², a, p), т.е. в стеке и на входе удаляем a.

3. Если (w$, x ₀$, e) ⊢ ^* ($,$,p), т.е. алгоритм достигает финальной конфигурации ($,$, p), то работа прекращается и цепочка p является левым разбором входной цепочки w.

4.Если алгоритм достигает конфигурации (x, Xa,p) и М(X, u)= ошибка, то конфигурация (текущая) объявляется ошибочной, разбор прекращается и выводится сообщение об ошибке.

Предсказывающий алгоритм корректен для G, если L(G)={ w | A (w)-определен} и А (w)=p?.

Построение корректной управляющей таблицы M для LL(1) грамматик. Пусть FOLLOW ₁(b) = {w | SÞ^*abg & wÎ FIRST ₁(g)}, т.е. множество терминалов, которые могут встречаться непосредственно справа от b (= следовать за b) в любых выводимых цепочках, причем если ab - выводима, то e Î FOLLOW ₁(b). Сначала строят FIRST ₁(X) и FOLLOW ₁(A).

Если правило A®a имеет номер i, то М(А, а) = i " a Î FIRST ₁(a) \ { e }.

Если e Î FIRST ₁(a), то М(А, b) = i " b Î FOLLOW ₁(A).

M(a, a) = выброс " a ÎS_T, M($, e) = допуск, M(X, a) = ошибка в остальных случаях.

Если хотя бы в одной клетке таблицы окажется более одного номера, то грамматика ÏLL(1).

Для правого разбора алгоритм похожий, но таблицу для LR строить значительно сложнее.

Определим множества L (A) = { x ÎS | AÞ⁺ xa } и R (A) = { x ÎS | AÞ⁺ bx }: сначала построим множества символов l (A) = l ₀(A) и r (A) = r ₀(A), являющихся самыми левыми (правыми) во всех A -правилах, а затем множества l_i ₊₁(A) = È l_k (B), r_i ₊₁(A) = È r_k (C), " k £ i, " B Î l_i (A), " C Î r_i (A)

	l ₀	l ₁	l ₂	L	r ₀	r ₁	r ₂	R
E	ET	F	(a	ETF(a	T	F	) a	TF)a
T	TF	(a		TF(a	F	) a		F)a
F	(a			(a	) a			)a

L (A) = È l_k (A), R (A) = È r_k (A). Построим множества L и R для грамматики G₀. Чтобы получить множества FIRST ₁(A), достаточно удалить из L (A) все нетерминальные символы. Для всех нетерминалов грамматики G₀ имеем FIRST ₁={ (, a }, в т.ч. и для E-правил FIRST ₁(Е + Т)= FIRST ₁(Т) Þ G₀ÏLL(1).

G₀: { Е® Е+Т | Т, Т® Т*F | F, F® (Е) | а } ÏLL(1), т.к. она леворекурсивна. Ну и что?

Пример LL(1) грамматики (ГМ-479). Грамматика является LL(1) грамматикой, если для распознавания очередного правила достаточно заглянуть на входной ленте на один символ вперед.

G₀′: { S® ТR ¹, R® +ТR ²| е ³, Т® EF ⁴, F® *EF ⁵| е ⁶, E® (S) ⁷| а ⁸} ÎLL(1). Для построения таблицы М нужна функция FIRST ₁, а ее проще строить по грамматике без е -правил. Удалив е -правила, получим грамматику G₀″ ÏLL(1) - первые терминальные символы разных R- и F-правил совпадают: { S® Т | ТR, R® +Т | +ТR, Т® E | EF, F® *E | *EF, E® (S) | а }.

l ₀

l ₁

l ₂

FIRST₁

r ^-¹

F ₀

f ₀′

f ₀″

f ₁

f ₁′

f ₁″

f ₂

f ₂′

f ₂″

FOLLOW₁

Rе

+)$

Fе

R +

+)$

) а

R +

*+)$

FIRST ₁(A) = (L (A) = È l_k (A)) \ S_N.

Что может следовать за E? Очевидно, только F, начинающееся с ‘*’, или превращающееся в e. А что за e? В этом случае E и F образуют T, и за E будет то, что следует за T, т.е. R, начинающееся с ‘+’, или равное e. Тогда за E, входящим в S, следует ‘$’, или ‘)’.

Пусть S _e = {A | (A® e)ÎP} = {R,F} – множество нетерминалов, для которых $ e -правило.

r ^-¹(A) = {B | AÎ r (B)}– множество таких B, что $ B-правило с последним символом A.

F ₀(A) – множество символов, непосредственно следующих в правилах за A, и еще $ для S.

f_i ′(A) = È FIRST ₁(B) " B Î[S_N Ç F_i (A)], F_i ′(A) = F_i (A) È f_i ′(A) EMPTY = { A ÎS_N | A Þ^* e }

f_i ″(A) = È F_i ′(B) " B Î[S _e Ç F_i ′(A)], F_i ″(A) = F_i′ (A) È f_i ″(A) У нас EMPTY = S _e.

f_i ₊₁(A) = È F_i ″(B) " B Î[S_N Ç r ^-¹(A)], F_i ₊₁(A) = F_i″ (A) È f_i ₊₁(A) FOLLOW ₁(A) = F _¥(A) \ S_N

FIRST ₁(A ₁ …A_n) = FIRST ₁(A ₁) È { if A₁Î EMPTY then FIRST ₁(A ₂) } È …

правило имеет вид A ® x Þ " v Î FIRST ₁(x), а если A ® e Þ " v Î FOLLOW ₁(A).

В верхней части таблицы для каждого нетерминала A мы пишем номер i его правила P_i в ячейке M(A, v), если P_i =(A ® x) & v Î FIRST ₁(x), или P_i =(A ® e) & v Î FOLLOW ₁(A). Иначе - “ ошибка ”!

Продолжение примера G₀′. Вход: a + a * a. Управляющая таблица для LL (1)-грам-ки G₀′

Стек	Вход	№ правила	Правая часть	Комментарии
$ S	a+a * a $		TR	a Î FIRST ₁(S)
$ RT	a + a * a $		EF	a Î FIRST ₁(T)
$ RFE	a + a * a $		a	a Î FIRST ₁(E)
$ RFa	a + a * a $		выброс
$ RF	+ a * a $		e	+Î FOLLOW ₁(F)
$ R	+ a * a $		+ TR	+Î FIRST ₁(R)
$ RT +	+ a * a $		выброс
$ RT	a * a $		EF	a Î FIRST ₁(T)
$ RFE	a * a $		a	a Î FIRST ₁(E)
$ RFa	a * a $		выброс
$ RF	* a $		* EF	Î FIRST* ₁(F)
$ RFE*	* a $		выброс
$ RFE	a $		a	a Î FIRST ₁(E)
$ RFa	a $		выброс
$ RF	$		e	$Î FOLLOW ₁(A)
$ R	$		e	$Î FOLLOW ₁(A)
$	$		успех

Левый разбор цепочки берем из столбца 3: 14862485863.

Пример2 для грамматики G₀′. Вход: (+ a)* a.

Стек	Вход	№ правила	Правая часть	Комментарии
$ S	(+a)* a $		TR	(Î FIRST ₁(S)
$ RT	(+a)* a $		EF	(Î FIRST ₁(T)
$ RFE	(+a)* a $		(S)	(Î FIRST ₁(E)
$ RF) S (	(+a)* a $		выброс
$ RF) S	+ a)* a $		ошибка	+Ï FIRST ₁(S)

4.5. Восходящий анализ (ведется, начиная от входной цепочки). (АУ-338?)

Говорят, что правовыводимую цепочку abw можно свернуть слева к aAw с помощью правила A ® b, если S Þ_r^* aAw Þ_r abw Þ_r^* xw. При этом b называют основой abw, а процедуру сверткой. Можно построить дерево редукций (см. пример восходящего разбора). Оно будет конечным. Построение дерева можно закончить, когда получим лист с начальным символом грамматики.

12 3 4 5 6 7 Следующая ⇒

Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2025 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных