Un reto de altura: el documento Sirtori

Imagen de tokamak
Enviado por tokamak en

Foros: 

Por tokamak

Os propongo todo un reto a la altura de Kriptópolis.

Aquí tenéis publicado un proyecto fin de carrera de la Universidad Carlos III de Madrid. La autora, Sara Gómez Hernández, analizó en ese proyecto (pdf) diversos documentos históricos españoles, cifrados con el método de sustitución monoalfabética, utilizando para ello la herramienta Cryptool.

Lo más interesante del proyecto es El Documento Sirtori (p 84-93), un texto cifrado del siglo XVI, del que no se dispone del correspondiente texto en claro, ni de información contextual precisa.

La autora se decanta por considerarlo un cifrado de sustitución simple (p. 65), aunque no llega a descifrarlo, entre otras cosas por la considerable dificultad de interpretación que presentan los caracteres.

Creo que debería poderse descifrar, ya que se dispone de bastante texto, y sería un magnífico e histórico logro para Kriptópolis conseguir desvelar el contenido de un documento de hace cuatro siglos.

A ver qué os parece. Yo discrepo con la autora y, en principio, el texto me parece una cifra homofónica, quizá con un silabario, con cierto parecido con algunas contemporáneas.

Por los digramas los conoceréis

Existe una estadística de digramas del Mamotreto -puede hacerse para cualquier otro texto- En esa relación estarán tambien los digramas consonánticos, si entiendo lo que quieres decir,

Aquí te pongo unas cuantas parejas con su frecuencia relativa, tal como viene en el enlace del mamotreto

NT	1,03
ST	0,97
ND	0,93
LL	0,69
SC	0,57
TR	0,55
SD	0,51
SP	0,50
NC	0,44
SQ	0,42
RT	0,40
CH	0,39
NL	0,33
RR	0,32
SL	0,25
SS	0,25
BR	0,24
RC	0,23
PR	0,22
NP	0,22

Aprovecho para comunicaros que no se me ocurre nada. A ver si esto de las consonantes vale para algo.

Transcripción "literal"

Buenas, he estado currando en una cosilla que creo que puede ser util: una transcripción literal del texto. Me refiero que en vez de buscar los simbolos o subsimbolos que hay he intentando hacer una transcripción fiel al original. He asignado un codigo a cada simbolo, y si hay un simbolo que difiere un poco de otro, pues le he dado un codigo propio.

Y esto para que? Os pongo un ejemplo, fijaros en la primera palabra, la cual he transcrito como "[3][.][1v][,]". Cada par de corchetes [] es un simbolo. Al tenerla por codigos podemos tratar el texto mediante programación y hacer las virguerias que se nos ocurran. Podemos decidir que los puntos anulan el simbolo anterior, con un programilla bastante trivial podriamos convertir "[3][.][1v][,]" en "[1v][,]" y de ahi convertir los codigos en numeros: "01,02". O podriamos decidir que el simbolo [1v] en realidad son dos [1][v], o incluso tres [1][\][/]. Si decidimos convertirlo en tres caracteres pues "[3][.][1v][,]" se convertiria en "[3][.][1][\][/][,]" => "01,02,03,04,05,06". Basicamente podriamos crear diferentes reglas y llegar asi a diferentes transcripciones, y una vez ahi analizarlo.

Aqui podeis ver la trasncripcción de la primera pagina en codigos:
https://github.com/doup/Sirtori/blob/master/input/01.txt

El listado de codigos que he utilizado:
https://dl.dropbox.com/u/3297331/codes_list.html

Y este es el montaje que sale si a la transcripcion por codigos (01.txt) le aplicamos las imagenes del listado de codigos (codes_list.html). Si dejais el raton encima de un simbolo deberia de saliros que codigo tiene asignado.
https://dl.dropbox.com/u/3297331/codes_inline.html

La idea es, intentar transcribirlo de la forma más fiel posible. Por ejemplo, he separado los simbolos [S] y [S2], que parecia que habia duda sobre estos simbolos. Teniendolos por separado, podemos generar una transcripción que S y S2 sean lo mismo, o otra que sean diferente. Vendria a ser lo mismo que coger un editor de textos y decirle reemplazar "S2" por "S".

Para poder currar con los codigos he hecho un programa "command line" en PHP, el codigo lo podeis encontrar aqui: https://github.com/doup/Sirtori
Basicamente, en la carpeta "input" se meten las trascripciones en codigos (01.txt, 02.txt, ...). Se ejecuta "./sirtori.php render" y esto genera en la carpeta "output" los diferentes archivos (codes_list.html, codes_inline.html, codes.html).

Los siguientes pasos serian pues:

1) Terminar la transcripción de todo el texto de la forma más fiel posible (y con el minimo de codigos).
2) Currarse un sistema automatizado para generar variantes, [1v] => [1][v], [S] => [S2], etc.

¿Os parece que puede ser util?

he hecho algo parecido.

he hecho algo parecido.

Nombro cada símbolo por un numero de dos cifras (nn) , los símbolos encima los nombro por +n (siendo n un numero), los signos de puntuación los nombro con dos letras cc, pp,...

La codificación la separo por puntos. Este sistema permite manipular mejor los códigos, pero no he llegado a nada.

Ahora creo que los simbolos encima de los codigos indican que el código sobre el que está se repite después del siguiente código.

El trabajo de Asier

Coincido en que es magnífico. Tan solo haría una observación: Habría que distinguir entre los signos que están en la línea principal, puntos y comas incluidos, de todo lo que "sobrevuele". Estos churros voladores deberían transcribirse como supraíndices. Para ello tenemos suficientes items en el teclado castellano, como los acentos grave ` y agudo ´ el circunflejo ^, las diéresis ¨, el apóstrofo ', las comillas " y los º ª, entre otros. Por ejemplo, el sígno que Tokamak llama B (y Asier 1v, con más precisión), cuando lleva el churro grande volador se puede transcribir como B^ (o 1v^) Yo he hecho un pobre intento que queda obsoleto tras el de Asier, donde los grupos de Vs se nombraban V, V' o V'V'V'', según los casos. También hay unas Vs imperfectas a las que parece faltarles el rabito por la derecha o por la izquierda, a las que nombro, respectivamente v_ _v

En general he tratado de circunscribirme a la trascripción de Tokamak, con la famosa J, que con algunas Vs forma JV'V' etc.

Creo que es importante distinguir los caracteres que están en la línea principal, puntos y comas incluidos, que pueden ser modificadores y/o caracteres en sí mismos, de los aéreos, aunque luego descubramos que comparten funciones. Por eso, a un carácter como la B (1v) con un churro pequeño encima, yo le llamaría B' o 1v'

También podríamos llegar a la conclusión de que algunos caracteres que parecen compuestos (grupos de Vs) debamos considerarlos como un solo carácter, porque de otro modo podrían aparecerán repeticiones sin sentido
Mi transcripción para todo el documento es:

 A. B, C D E F G. A H,. I J^,. Hª J^,ª L H C. M E H N,. 
D G E JV'V' M Q T G. N V'V'. L I F, D L T. U E. 
N M H E, . Eª. V^ M I F E .D, N J^ V^ T, H JJ^ , . 
A L, Q E JV'V' E L, Q E., B' J^ M J^ E H E H , L I',. 
G F, .Z. C E M. A Q A'. O V´,. JV'V', V', .D N, V' L. H, 
B' G., C. E L. I A, L Q _V' E T L, 
 
B' J^ ; M. G, L H^ E, B' M, N J^, L I G. , , 
F Q E, D G F. I´, .D. Z Eº. D C, L X´. C H^. 
N G, G M,. L Q, JV'V' F E. O E,,. L J^, JV'V', V'V' 
L I'. H^ N. B' V', M G. V`V', F D. Q A L E M 
 
L E ,L, L, D^ I H^ N B J^. M H^ G. B' V` , . 
R. A F . J'V'V` ,,, C, D L X^ H^ M N V_´, , 
V_´ M  Q'. L H^ I' L E, G E 
 
B¨ H^ J^ L, Aº 
F M' L, 
 
A L B´ F L 
 
A. B^ L V_´ J^ L, M' D. JV'V'V'. L, C E H^. Q G,. A F U 
H^ V^ U. L V_' H' A M D. M L, Q F E. Z X^ G A. D. I , 
A H^ L, B' M, N H^. L E. Q' Q' Q' F H^I C E V_´N V_^ 
A T, U V^, D'.: J^ M Q E B' J^ M H^ L E H^ I´ Q' 
G M, F H´ E Z B¨ C M D A. H^ Q U D E V_^ B´JV'V' I' J^ D. 
N V' U F H^ C E. JV'V'V' D. L Q B´ L, J^ H^ F. A I^ 
A I' V_' Z. V' B¨ M E J^ Z A L E H^ Q D L. M' J^ 
L F; H B' D Q. JV'V' V´ M E Ñ^ L H V', U. J^ Z. E H^ I´M. 
H. H' L, Q E JV'V'V' E Z . Z. B´ M, V', L ~
 
B M E Z.^ 'V'V H^ L Q L M^ D Q^ N H^ V_´ L E B´ E L Mª 
I' M' J^ E Q . D L,  A H^ D. Q' D. Q' V´ D,. L G F; G E L 
 
H^ K,.   
M J^ M^ Q E L E Q K E H^ I' V' Q, F B' M, H^ L E Q 
 
JV'V'V' Q L E K Q M D E V^ Q' F H^ V'V'^ M L J^ Z I, 
A, Q V'V' A H^ Q D E L B´ G E N J^, 
 
B'. D M^ G. V'V'V'V´ B, Q L I' Q E N U T, 
M B´ A, E A , . L Q J^ V^ @ G L D E . Ñ^, G L A 
B´ B´,  Bª  A L V_´ V^ E Z F Q. 
 
B´E A J^ E. G N V_' Ñ´ M, H^ Q' F A. B´ V'. Z A, N D,. 
G T. C- JV'V'V´, M G V´, M Q F H^ I` A E Ñ^ B , 
L E N B´ F E J^ H^ E L Q V'V'V' L I' G D E L  D V_´ 
V´ J^ L M Q JVV^ H^ J^ B, L, 
 
A A Ñ E. B´ E L. G I' D V^ L M Q´ F J^ H^ K V_´ E. 
A L C. E Bª, L I' N, B´ G L Q . 
 
A B´ 
 
J^ F JVV´, Z. L A Q' L I' 
G Ñ^ D L, 
 
A L B´ F L

Pero no me ha servido de nada.

Buenas, que alegria que veais

Buenas, que alegria que veais que sirva! :)

He metido varios cambios de los propuestos (churros voladores, jvv, ...) y he subido lo que tengo:

https://github.com/doup/Sirtori/blob/master/input/01.txt
https://dl.dropbox.com/u/3297331/codes_list.html

Estaria bien elegir una forma de codificar el texto y seguir con ella. Por mi parte, los nombres que he elegido se pueden cambiar a lo que sea, para mi no es importante siempre y cuando lleguemos a una interpretación lo más fiel posible (al fin y al cabo, luego trataremos con algún programa todo esto).

Cosas sobre las que nos tendriamos que poner de acuerdo:

A) Fidelidad? Como ejemplo, Agustin el tercer parrafo utiliza BJ^ para referirse a lo que yo he llamado [1vr|]. Sin embargo en el segundo parrafo en la primera palabra tenemos una combinación muy parecida (B'J^) y si os fijais esta dibujado diferente... que hacemos en estos casos? Utilizar los codigos que tenemos y "encajarlo" aunque no sea fiel del todo o crear un nuevo codigo aunque solo se utilice una vez?
B) Registrar los espacios?
D) Cantidad de churros voladores? Yo he diferenciado: churro largo [|], churro corto [^], apostrofo ['] y punto volador [º]. Necesitamos más detalle?
C) Registrar las cagadas de mosca? Para los puntos, comas, etc. que sean dudosos, podriamos utilizar la #. Por ejemplo: [#.]. Esto tiene que ver con el tema de la fidelidad. Utilizando esta convención, luego podriamos ignorar las # si quisieramos. Esto quizas es demasiado... jeje.

Como explicación, he utilizado [], que aunque es un poco engorroso para la transcripción (que de todas forma espero que se hagas una vez) es util para separar los simbolos claramente y creo que ayudara a la hora de programar. Otra cuestión, he optado por tener en cuenta variaciones que quizas son una tonteria (por ejemplo: [S2], [1vr|], [_v], [v_], ...) por que creo que teniendo el maximo de información no cerramos ninguna puerta. Teniendo estas variantes siempre podemos simplificarlo si queremos, en el sentido contrario no.

That's it! A ver si hago la herramienta para generar variantes, y otra para convertir la fiesta de corchetes en una lista de numeros como se proponia unos posts atras para que los cracks podais hacer los analisis pertinentes. =)

Saludos

Parón habemus

Parón habemus.

A la vista de esta serie de ISB (Insipid and Stupid Brackets), en jocoso recuerdo a como algunos llamaban al LISP (Lenguage of Imsipid and Stupid Parenthesis), no sé por dónde tirar. Por una parte veo elementos de la transcripción de Asier, como el "1v" famoso; pero luego veo cosas como BRK, S2, y otras novedades. ¿Cómo están transcritas ahora las v's múltiples? ¿Dónde acaba un carácter? ¿Cuáles son los modificadores? ¿De qué deberíamo obtener estadísticas? Por ejemplo, creo que necesitaríamos conocer lana lista de los símbolos considerados "básicos", tales como "1", "v", etc. para poder ir moviendo la rueca.

¡Qué alegría!

Qué alegría me da ver gente con ideas y fuerza. Estoy aquí con la cahiporra informática preparada para calcular sobre lo que me echéis, que para otra cosa no valgo.

Una cosa: Lo de convertir todo el galimatías a números me da un poco de miedo, porque vamos a perder la familiaridad quue ya teníamos con los garabatos, o la semejanza entre la codificación de Asier y los susodichos. Pero si creéis que hay que hacerlo, adelante.

El idioma

Me se ocurre que una fuente de dificultad sigue siendo el no estar seguros del idioma en que está(n) escrito(s) el/los diocumento(s). "A buenas horas vienes con eso", dirán algunos, y posiblemente tengan razón, pero había motivos, y la autoridad de Tokamak no es el menor, para pensar que si el milanés se dirigia al rey más poderoso de la tierra, lo haría en la lengua de éste. Sin embargo, los reyes no están ceñidos estrictamente a los nacionalismos, máxime cuando se rige un imperio, y tan idioma del rey era el castellano, como el italiano o el latín, entre otros muchos.

Quizá no fuera lo más cortés dirigirse en italiano a Felipe II, pero desde luego, una autoridad en las ciencias -en este caso en la astronomía, además de la criptografía- podría usar el Latín como vehículo cultural, aunque ya desde el renacimiento (Petrarca, Dante. y luego Ferrnando de Rojas) se había empezado a dignificar el uso de la lengua llamada vulgar en las ciencias y en la literatura.

Para decidir el idioma de un texto cifrado se puede aplicar el metodo de los mínimos cuadrados, para ello sólo necesitamos una estadística de las letras en cada idioma, y compararlas con las del cifrado, mediante la fórmula

D = Σ (Fi - fi)^2

donde Fi y fi son las frecuencias realativas de las letras más frecuentes, tanto en el cifrado como en el idioma analizado. Luego se toman las segundas más frecuentes, etc. El idioma para el que D tenga el menor valor es el mejora candidato, a falta de otra información sobre la temática del texto cirado.

Se ha demostrado a lo largo de esta aventura, que no seoy el mejor buscador de textos, así que ruego me facilitéis algún enlace a textos en latin y en italiano, de la época. No estaría de más algún otro en castellano, pues sigo desconfiando de la ortografía de De Sande.

Distancia euclídea?

Lo que hace la formula es buscar la distancia entre las frecuencias de letras del texto cifrado y los diferentes idiomas? La primera letra con mas frecuencia del texto cifrado - primera letra con más frecuencia de X idioma)^2 + (segunda letra más frecuencia cifrado - segunda X idioma) ^ 2 + ...
Haces esta operación para los diferentes idiomas y el que menor valor saque (más cerca este) es el idioma de la cifra.

Lo unico, una duda, si es una cifra homofónica donde se supone que todas las letras tienden a una frecuencia media, tiene validez este metodo? No seria más para una cifra de sustitución simple?

Gana el italiano, por goleada

El método de los mínimos cuadrados apunta al italiano, por 24 frente a 77, pero puede ser por causa de la transcripción realizada..
Tambioén ocurre que en la estadística del italiano he tomado todos los signos, incluyendo los de puntuación, espacio, etc., que seguramente no figuran en el texto cifrado. Quizá se debería normalizar la estadística. Mañana me pondré a ello

                                                                  Candidatos   
Mamotreto (Castellano)	Sirtori IIII A 	Texto italiano	             Castell.	Ita.
Nº ord			Símbolo	Rel %			Rel %			
1	E	13,73	^	8,59	87	E	11,61	48955	26,42	9,12
2	A	13,00	.	8,19	83	A	10,43	43966	23,18	5,02
3	O	9,30	0	7,8	79	I	9,34	39371	2,26	2,37
4	S	7,87	L	7,5	76	O	8,90	37514	0,13	1,96
5	I	7,61	E	6,61	67	N	6,13	25842	1,00	0,23
6	N	7,22	'	5,33	54	L	5,96	25148	3,56	0,40
7	R	6,37	H	4,74	48	R	5,54	23357	2,67	0,64
8	U	5,76	Q	4,54	46	T	5,32	22421	1,48	0,61
9	L	5,55	M	4,34	44	S	4,75	20034	1,46	0,17
10	D	4,81	A	3,65	37	c	4,38	18468	1,35	0,53
11	T	3,87	B	3,65	37	D	3,48	14674	0,05	0,03
12	C	3,40	´	3,65	37	U	3,21	13526	0,06	0,19
13	M	2,47	D	3,46	35	M	2,75	11587	0,97	0,50
14	P	2,35	G	2,86	29	p	2,42	10212	0,26	0,19
15	Q	1,92	J	2,86	29	_	2,37	9999	0,88	0,24
16	G	1,07	F	2,76	28	0	2,31	9753	2,84	0,20
17	B	1,00	I	2,57	26	V	1,91	8039	2,47	0,44
18	H	0,98	V	2,27	23	g	1,85	7822	1,67	0,18
19	F	0,59	N	1,97	20	h	1,18	4977	1,92	0,62
20	Z	0,57	Z	1,38	14	f	1,02	4306	0,66	0,13
21	X	0,32	C	1,28	13	-0	0,78	3306	0,93	0,25
22	Ñ	0,24	V_	1,28	13	B	0,76	3219	1,09	0,27
23			2	0,99	10	q	0,72	3043	77,31	24,30
24			U	0,79	8	Z	0,63	2639		
25			P	0,69	7	.	0,43	1800		
26			T	0,69	7	'	0,42	1780		
27			ª	0,59	6	9	0,23	970		
28			S	0,59	6	:	0,17	738		
29			Ñ	0,59	6	;	0,13	563		
30			%	0,49	5	*	0,12	504		
31			K	0,39	4	J	0,07	278		
32			¬	0,3	3	?	0,07	276		
33			X	0,3	3	1	0,06	259		
34			1	0,2	2	2	0,05	211		
35			O	0,2	2	•	0,05	203		
36			º	0,2	2	(	0,04	166		
37			`	0,2	2	)	0,04	150		
38			B¨	0,2	2	3	0,03	147		
39			!	0,1	1	„	0,03	137		
40			_V	0,1	1	4	0,02	103		
41			5	0,1	1	8	0,02	99		
42			R	0,1	1	6	0,02	93		
43			#	0,1	1	7	0,02	91		
44			4	0,1	1	5	0,02	85		
45			¨	0,1	1	»	0,02	84		
46			3	0,1	1	«	0,02	75		
47			&	0,1	1	^	0,02	70		
48			@	0,1	1	£	0,02	69		
49			¡	0,1	1	!	0,01	57		
50			Ç	0,1	1	/	0,01	56		
51			W	0,1	1	0	0,01	55		
52					1013	y	0,01	55		
53						>	0,01	48		
54						"	0,01	43		
55						X	0,01	38		
56						\	0,01	38		
57						W	0,01	31		
58						<	0,01	30		
59						$	0,00	19		
60						%	0,00	19		
61						&	0,00	14		
62						K	0,00	13		
63						#	0,00	12		
64						¦	0,00	12		
65						°	0,00	10		
66						}	0,00	7		
67						~	0,00	7		
68						{	0,00	7		
69						©	0,00	5		
70						]	0,00	4		
71						|	0,00	4		
72						[	0,00	3		
73						§	0,00	2		
74						™	0,00	2		
75						€	0,00	1		
76						±	0,00	1		
77						®	0,00	1		
78						0	0,00	1		
79								421724

Sigue pareciendo italiano

Normalizando las estadísticas del italiano, eliminando espacios y signos de puntuación, su factor se eleva a un 46, lejos aún del 77 del castellano. Bien es verdad que en la estadística del cifrado tomo los churros voladores como caracteres, y a lo mejor no es correcto; pero yo diría que el Sertorius no escribió en castellano. Faltaría ver la estadística del latrín.

Más Ialiano que Latín

El Latín (Sidereus Nuncius, de Galileo) da un valor ligeramente mayor para los mínimos cuadrados, concretamente 48 frente a 46, lo que podría no ser significativo.
Coincido en que nada de esto es concluyente, si el cifrado es homofónico.

Cast     Ital.    Latín
26,42	13,47	8,12
23,18	7,95	6,30
2,26	4,24	1,74
0,13	3,61	0,07
1,00	0,02	1,28
3,56	0,94	2,46
2,67	1,23	4,33
1,48	1,17	5,02
1,46	0,46	2,59
1,35	0,96	3,88
0,05	0,00	0,14
0,06	0,07	0,13
0,97	0,31	0,12
0,26	0,09	0,00
0,88	8,18	1,74
2,84	0,10	1,82
2,47	0,31	1,61
1,67	0,10	1,77
1,92	0,52	1,49
0,66	0,09	0,53
0,93	1,64	0,45
1,09	0,22	1,59
77,31	45,69    47,19

A vueltas con el idioma, y ya no os molesto más

Considerando la objeción de que el cifrado seguramente usa dos homófonos (aunque eso no es seguro al 100%), he recalculado la distancia ecuclídea (la de los mínimos cuadrados) pero tomando esta vez la mitad de la frecuencia relativa de cada idioma candidato, es decir:

D = Σ ( Fi - fi/2 )^2

donde Fi y fi son, respectivamente, las frecuencias relativas de las letras, en el cifrado y en el idioma analizado,

Cast. 	Ita.	Latin
 
2,98	5,31	6,84
2,84	6,48	6,76
9,92	7,54	9,24
12,74	7,21	11,87
9,03	10,86	6,58
4,60	4,41	2,98
3,86	3,03	1,39
3,63	2,76	1,00
3,72	3,13	1,53
2,43	1,64	0,51
2,94	3,12	2,40
5,50	3,67	2,42
4,95	3,90	3,37
2,84	2,40	1,95
2,84	3,35	4,24
3,24	3,08	4,08
3,17	3,72	6,60
2,99	2,94	5,15
2,16	2,42	3,88
0,79	0,98	1,90
0,77	0,88	1,64
0,97	1,55	1,64
 
88,93	84,37	87,97

Pero, naturalmente, todo esto no es más que una especulación, para no permanecer ocioso. Porque, como decia antes, hay un par de símbolos demasiado abundantes en el cifrado, quizá porque no tienen homófonos o porque tienen funciones especiales, como caracteres-nulos, separadores, etc. Y eso podría distorsionar el cálculo, dado que las diferencias son pequeñas. Este estrecho margen es lógico al tratarse de lenguas fraternas.

Gana el Italiano, seguido por el Latín. El castellano queda a cierta distancia. Cachis.

P.S.
He utilizado las frecuencias del Mamotreto, pero tal como salen al contar las letras, sin fusionar la U con la V ni la J con la X.

Me parece bien

Pero antes hay que estar de acuerdo sobre la lista de símbolos básicos: ¿Los de tu última translieteración? ¿Los de Asier? ¿Cómo tratamos los grupos de Vs?

Por cierto, ¿qué es "BRK" en tu última ecléctica transcripción? ¿Salto de línea?

BRK

Sí, son saltos de linea. Lo que no se si se entendio muy bien lo que pretendia con el sistema que proponia. He registrado los saltos de linea, espacios, etc. Quizas por deformación profesional, para cubrir hipoteticos casos en los que les puedieramos dar un significado... por otra parte la intencion era sacar una reinterpretación: https://dl.dropbox.com/u/3297331/codes_inline.html que fuera facil de comparar con los originales para ver si la transcripción es correcta o si hay que afinarlo más.

De alguna manera lo que transcribo no son los simbolos que creo que utilizaba Sirtori, sino lo que ven nuestros ojos. Cuando a una parte llamo [1v] no digo que eso sea un simbolo, simplemente lo registro a un formato que se pueda tratar mediante programación. De alguna manera me interesa más la forma. Osea, que lo prioritario ahora para mi no es hacer una interpretación de cada buratacho ([1v] es un simbolo?, dos?), eso vendra despues. No se si me explico.

De hecho, en mi idea, la transcripción "literal" la hacemos una vez. Despues tranformamos esa transcripción a derivados, y ahi es cuestion de programar unas reglas de conversión... y al final, la estadistica. Esa es mi propuesta.

Quizas lo estoy complicando demasiado, pero es lo que se me ocurrio para poder tratar con comodidad al monstruito que tenemos entre manos.

Vosotros direis :)

En efecto

No me atribuyáis capacidades que no tengo, que luego la decepción es mayor. Mi modelo es Pep Guardiola, que en la cima de la gloria se da el piro, vampiro. Bien sabe él que gran parte del éxito tiene que ver con una serie de circunstancias fuera de su control, a lo que se pouede llamar Azar. Y el hombre, un genio, ya digo, piensa: "En cuanto falle, que ya he fallado con la Liga, estos me queman en la hoguera"

Pues ya os digo que el Sertori me está dando mucho miedo.

Gracias a todos

Gracias a todos por los comentarios. ;)

El tema de sacarlo en numeros ya lo hecho, ahora viene lo divertido... el parser. ¿Alguna sugerencia? Que tipo de operaciones creeis que deberia de contemplar a parte de simple sustituciones? [a] => [b], [a][b] =>

, [a] => [b][c], ...
 
Vaya sarao...

Pues yo sigo

Pues yo sigo tratando de encajar las letras, los digramas y los trigramas. Pero creo que hay que tomar como caracteres distintos a los garabatos con diferentes churros. Ahora veré la nueva transcripción de Asier

Ya he visto el trabajo de Asier

Fabuloso. Se recogen hasta los más mínimos detalles. Creo que tomas una parte de la versión de Tolamak, cuando usas las J's, que en realidad serían R's, según tus trabajos aneriores. La verdad ese que esos caracteres compuestos son un verdadero rompecabezas.

Creo que con eso podremos trabajar mucho mejor. Bueno, aquellos a los que les quede alguna neurona sana.

Que alguien empuje

No avanzo, pero creo que estamos a un paso de resolverlo.

El problema sigue siendo, creo, saber si hay que considerar cada símbolo con su churro como una letra o como dos.

Ssigo creyendo que la firma SI(?)RI es esencial para resolver el enigma. Pero esa B con churro ha de ser bien analizada.

Con esta trasnscripción, algo anticuada con respecto a la de Asier:

A . B' C D E F G . A H 2 I J^ 2 Hª J^ ,ª L H C . M E H N 2 
D G E P M Q T G . N S . L I F , D L T . U E . 
N M H E , . Eª . V^ M I F E . D , N J^ V^ T , H! , . 
A L , Q E P E L , Q E1 B' J^ M J^ E H E H , L I' 2 
G F , . Z . C E M . A Q A' . O V´ 2 P , V' , . D N , V' L . H , 
B' G 1 C . E L . I A , L Q _V' E T L , 
 
B' J^ ¬ M . G , L H^ E , B' M , N J^ , L I G . , , 
F Q E , D G F . I´ , . D . Z Eº . D C , L X´ . C H^ . 
N G , G M 2 L Q , P F E . O E 5 L J^ , P , S 
L I' . H^ N . B' V' , M G . S , F D . Q A L E M 
 
L E , L , L , D^ I H^ N B J^ . M H^ G . B' V` , . 
R . A F . # 4 C , D L X^ H^ M N V_´ , , 
V_´ M  Q' . L H^ I' L E , G E 
 
B¨ H^ J^ L , Aº 
F M' L , 
 
A L B´ F L 
 
A . B^ L V_´ J^ L , M' D . % . L , C E H^ . Q G 2 A F U 
H^ V^ U . L V_' H' A M D . M L , Q F E . Z X^ G A . D . I , 
A H^ L , B' M , N H^ . L E . Q' Q' Q' F H^ I C E V_´ N V_^ 
A T , U V^ , D' 3 J^ M Q E B' J^ M H^ L E H^ I´ Q' 
G M , F H´ E Z B¨ C M D A . H^ Q U D E V_^ B´ P I' J^ D . 
N V' U F H^ C E . % D . L Q B´ L , J^ H^ F . A I^ 
A I' V_' Z . V' B¨ M E J^ Z A L E H^ Q D L . M' J^ 
L F ¬ H B' D Q . P V´ M E Ñ^ L H V' , U . J^ Z . E H^ I´ M . 
H . H' L , Q E % E Z . Z . B´ M , V' , L 
 
B M E Z^ . S H^ L Q L M^ D Q^ N H^ V_´ L E B´ E L Mª 
I' M' J^ E Q . D L ,  A H^ D . Q' D . Q' V´ D 2 L G F ¬ G E L H^ K 2 
M J^ M^ Q E L E Q K E H^ I' V' Q , F B' M , H^ L E Q 
 
% Q L E K Q M D E V^ Q' F H^  S^ M L J^ Z I , 
A , Q S A H^ Q D E L B´ G E N J^ , 
 
B' . D M^ G . & B , Q L I' Q E N U T , 
M B´ A , E A , . L Q J^ V^ @ G L D E . Ñ^ , G L A 
B´ B ´ ,  B ª  A L V_´ V^ E Z F Q . 
 
B´ E A J^ E . G N V_' Ñ ´ M , H^ Q' F A . B´ V' . Z A , N D 2 
G T . C . %´ , M G V´ , M Q F H^ I ` A E Ñ^ B , 
L E N B´ F E J^ H^ E L Q ¡ L I' G D E L D V_´ 
V´ J^ L M Q Ç H^ J^ B , L , 
 
A A Ñ E . B´ E L . G I' D V^ L M Q´ F J^ H^ K V_´ E . 
A L C . E Bª , L I' N , B´ G L Q . 
 
A B´ 
 
J^ F W , Z . L A Q' L I' 
G Ñ^ D L , 
 
A L B´ F L

Tengo esta estadística, comparada con el italiano (cosa de la que tampoco deberíamos fiarnos)

Sirtori IIII A churros juntos			Texto italiano			
Símbolo	Rel %	FREC		frec	Rel %	2 homófonos
.	83	10,06	E	48955	12,57	6,29
0	77	9,33	A	43966	11,29	5,65
L	76	9,21	I	39371	10,11	5,06
E	64	7,76	O	37514	9,63	4,82
M	36	4,36	N	25842	6,63	3,32
A	35	4,24	L	25148	6,46	3,23
Q	34	4,12	R	23357	6,00	3,00
D	33	4,00	T	22421	5,76	2,88
H^	33	4,00	S	20034	5,14	2,57
G	29	3,52	c	18468	4,74	2,37
J^	29	3,52	D	14674	3,77	1,89
F	28	3,39	U	13526	3,47	1,74
N	20	2,42	M	11587	2,97	1,49
B´	15	1,82	p	10212	2,62	1,31
C	13	1,58	V	8039	2,06	1,03
Z	13	1,58	g	7822	2,01	1,01
B'	12	1,45	h	4977	1,28	0,64
I'	12	1,45	f	4306	1,11	0,56
2	10	1,21	B	3219	0,83	0,42
H	10	1,21	q	3043	0,78	0,39
I	10	1,21	Z	2639	0,68	0,34
Q'	10	1,21	J	278	0,07	0,04
V'	9	1,09	y	55	0,01	0,01
U	8	0,97	X	38	0,01	0,01
V^	8	0,97	W	31	0,01	0,01
V_´	8	0,97	K	13	0,00	0,00
B	7	0,85		389535		
P	7	0,85				
T	7	0,85				
S	5	0,61				
V´	5	0,61				
%	4	0,48				
K	4	0,48				
M'	4	0,48				
Ñ^	4	0,48				
¬	3	0,36				
B¨	3	0,36				
I´	3	0,36				
M^	3	0,36				
V_'	3	0,36				
´	2	0,24				
H'	2	0,24				
Ñ	2	0,24				
O	2	0,24				
V_^	2	0,24				
X^	2	0,24				
1	1	0,12				
3	1	0,12				
4	1	0,12				
5	1	0,12				
`	1	0,12				
_V'	1	0,12				
,ª	1	0,12				
¡	1	0,12				
@	1	0,12				
&	1	0,12				
#	1	0,12				
%´	1	0,12				
ª	1	0,12				
A'	1	0,12				
Aº	1	0,12				
B^	1	0,12				
Bª	1	0,12				
Ç	1	0,12				
D^	1	0,12				
D'	1	0,12				
E1	1	0,12				
Eª	1	0,12				
Eº	1	0,12				
H´	1	0,12				
H!	1	0,12				
Hª	1	0,12				
I^	1	0,12				
Mª	1	0,12				
Q´	1	0,12				
Q^	1	0,12				
R	1	0,12				
S^	1	0,12				
V`	1	0,12				
W	1	0,12				
X´	1	0,12				
Z^	1	0,12				
	825

Y esta estadística de digramas y trigramas

2-gram. Sert. Rel % 2-gram Ita Rel % 3-gram. Sert. Rel %           3.gram it. Rel %
L,	16	3,18	ER	3411	2,02	L,A	4	4,00	CHE	803	1,42
,L	11	2,19	CO	3015	1,78	L,Q	4	4,00	ELL	685	1,21
LE	11	2,19	EN	2910	1,72	,L,	3	3,00	QUE	529	0,93
E.	10	1,99	LA	2823	1,67	,QE	3	3,00	PER	521	0,92
D.	9	1,79	ON	2629	1,56	B'M,	3	3,00	LLA	507	0,90
EL	9	1,79	AN	2598	1,54	FE.	3	3,00	GLI	503	0,89
.L	8	1,59	RA	2587	1,53	,.D	2	2,00	ENT	485	0,86
,.	7	1,39	RE	2555	1,51	,AH^	2	2,00	NDO	416	0,73
.A	7	1,39	EL	2535	1,50	,AL	2	2,00	DEL	403	0,71
.D	7	1,39	TO	2534	1,50	,B'M	2	2,00	CON	371	0,66
AL	7	1,39	DI	2517	1,49	,DL	2	2,00	EST	364	0,64
LQ	7	1,39	LL	2474	1,46	,LI'	2	2,00	AND	360	0,64
,A	6	1,19	TE	2416	1,43	,MG	2	2,00	MEN	339	0,60
,Q	6	1,19	NO	2326	1,38	,NJ^	2	2,00	NTE	333	0,59
DE	6	1,19	CH	2299	1,36	,V',	2	2,00	ATO	302	0,53
G.	6	1,19	LE	2287	1,35	.AL	2	2,00	TTO	283	0,50
LI'	6	1,19	TA	2236	1,32	.B´E	2	2,00	COS	276	0,49
M,	6	1,19	DE	2232	1,32	.D.	2	2,00	END	273	0,48
QE	6	1,19	IO	2153	1,27	.LQ	2	2,00	NON	270	0,48
Z.	6	1,19	SI	2089	1,24	.Z.	2	2,00	SSE	270	0,48
,B'	5	0,99	AL	2084	1,23	ALB´	2	2,00	QUA	266	0,47
.Z	5	0,99	OR	2072	1,23	ALE	2	2,00	ALL	265	0,47
A,	5	0,99	IN	1983	1,17	B´EL	2	2,00	LLE	265	0,47
A.	5	0,99	AR	1918	1,14	B´FL	2	2,00	ERA	262	0,46
DL	5	0,99	LI	1904	1,13	B,L	2	2,00	CHI	258	0,46
E,	5	0,99	IA	1878	1,11	B'J^M	2	2,00	ESS	248	0,44
EH^	5	0,99	RI	1871	1,11	C.E	2	2,00	UEL	247	0,44
,F	4	0,80	SE	1828	1,08	D.Q'	2	2,00	ARE	235	0,42
,M	4	0,80	NT	1816	1,07	DEL	2	2,00	SSI	232	0,41
,N	4	0,80	ST	1775	1,05	DL,	2	2,00	STA	230	0,41
.B´	4	0,80	HE	1760	1,04	EH^I´	2	2,00	TRA	230	0,41
.N	4	0,80	OL	1743	1,03	EL.	2	2,00	VOL	218	0,39
C.	4	0,80	QU	1721	1,02	H^LE	2	2,00	PAR	217	0,38
CE	4	0,80	RO	1695	1,00	H^QD	2	2,00	UES	212	0,37
FE	4	0,80	ES	1673	0,99	I,A	2	2,00	TRO	201	0,36
FH^	4	0,80	ME	1672	0,99	J^L,	2	2,00	EVA	199	0,35
GE	4	0,80	AT	1657	0,98	L,B'	2	2,00	ISS	198	0,35
H^L	4	0,80	TI	1643	0,97	LB´F	2	2,00	EGL	197	0,35
J^L	4	0,80	ND	1632	0,97	LE,	2	2,00	OSI	196	0,35
L.	4	0,80	NE	1570	0,93	LEH^	2	2,00	CCH	194	0,34
ME	4	0,80	PE	1558	0,92	LEQ	2	2,00	ETT	190	0,34
MQ	4	0,80	DO	1552	0,92	LI'G	2	2,00	VEN	189	0,33
Q.	4	0,80	MI	1510	0,89	M,H^	2	2,00	UAL	187	0,33
V',	4	0,80	SS	1485	0,88	M,N	2	2,00	UTT	186	0,33
,D	3	0,60	OS	1468	0,87	NJ^,	2	2,00	COM	185	0,33
,G	3	0,60	VE	1431	0,85	Q'FH^	2	2,00	ASS	183	0,32
,V'	3	0,60	TR	1426	0,84		100		CIA	183	0,32
.B'	3	0,60	MA	1414	0,84				OST	182	0,32
.C	3	0,60	NA	1383	0,82				AVE	181	0,32
.E	3	0,60	CI	1362	0,81				CIO	181	0,32
.G	3	0,60	TT	1328	0,79				LLO	179	0,32
.M	3	0,60	UE	1282	0,76				RAN	178	0,31
.Q'	3	0,60	UN	1271	0,75				AVA	175	0,31
AH^	3	0,60	CA	1148	0,68				GIO	173	0,31
B´E	3	0,60	VA	1134	0,67				DIS	172	0,30
B´F	3	0,60	LO	1111	0,66				ERE	172	0,30
B,	3	0,60	SO	1095	0,65				OLE	172	0,30
B'J^	3	0,60	TU	1079	0,64				UNA	172	0,30
B'M	3	0,60	PO	1041	0,62				TUT	169	0,30
EH	3	0,60	SA	1038	0,61				TTA	168	0,30
EN	3	0,60	MO	1034	0,61				STR	166	0,29
EQ	3	0,60	GL	1032	0,61				ACC	164	0,29
EZ	3	0,60	IL	1005	0,59				COL	163	0,29
F.	3	0,60	CC	977	0,58				SER	160	0,28
GF	3	0,60	AS	975	0,58				MAN	159	0,28
GL	3	0,60	DA	969	0,57				ANT	155	0,27
H^.	3	0,60	AV	953	0,56				AME	153	0,27
H^Q	3	0,60	IS	945	0,56				NTO	153	0,27
J^,	3	0,60	IM	933	0,55				STI	153	0,27
J^E	3	0,60	IE	931	0,55				PRE	151	0,27
J^H^	3	0,60	UA	924	0,55				VER	151	0,27
J^M	3	0,60	GI	923	0,55				NTI	150	0,26
J^Z	3	0,60	CE	918	0,54				STE	150	0,26
LA	3	0,60	NI	915	0,54				SIM	149	0,26
LB´	3	0,60	IC	898	0,53				OLO	147	0,26
LH^	3	0,60	IT	894	0,53				OLT	145	0,26
M.	3	0,60	PA	877	0,52				ATT	142	0,25
MD	3	0,60	PI	857	0,51				OCC	139	0,25
ML	3	0,60	PR	816	0,48				GRA	138	0,24
NJ^	3	0,60	AM	802	0,47				STO	137	0,24
QL	3	0,60	UO	789	0,47				ORT	136	0,24
Q'F	3	0,60	AC	788	0,47				ALE	133	0,23
T,	3	0,60	VI	776	0,46				ITA	133	0,23
,,	2	0,40	OM	767	0,45				ERC	131	0,23
,H^	2	0,40	EG	730	0,43				SSA	129	0,23
,P	2	0,40	VO	725	0,43				ALT	128	0,23
,U	2	0,40	SC	720	0,43				LTR	128	0,23
.%	2	0,40	UT	706	0,42				NDE	128	0,23
.H	2	0,40	LT	674	0,40				ANO	127	0,22
.H^	2	0,40	RT	664	0,39				ERO	126	0,22
.I	2	0,40	ET	658	0,39				OME	126	0,22
.O	2	0,40	FA	617	0,37				LOR	124	0,22
.Q	2	0,40	HI	601	0,36				ONO	124	0,22
.S	2	0,40	SU	580	0,34				COR	123	0,22
2G	2	0,40	EV	567	0,34				OMI	123	0,22
2L	2	0,40	ED	556	0,33				TTE	123	0,22
AB´	2	0,40	OC	532	0,31				SCI	122	0,22
AF	2	0,40	IU	530	0,31				SEN	122	0,22
B´G	2	0,40	AG	510	0,30				ITO	121	0,21
C,	2	0,40	ZA	474	0,28				TRE	120	0,21
D2	2	0,40	AD	473	0,28				PIU	118	0,21
DG	2	0,40	OV	464	0,27				ION	116	0,20
EA	2	0,40	BE	464	0,27				ONE	116	0,20
EJ^	2	0,40	GN	463	0,27				INA	115	0,20
EM	2	0,40	AI	450	0,27				ENZ	114	0,20
EÑ^	2	0,40	FI	446	0,26				RES	113	0,20
EP	2	0,40	GR	423	0,25				TOR	113	0,20
F,	2	0,40	UR	415	0,25				RAT	112	0,20
F¬	2	0,40	EM	415	0,25				DER	110	0,19
FL	2	0,40	OT	410	0,24				ENE	110	0,19
FQ	2	0,40	OG	408	0,24				IMO	110	0,19
G,	2	0,40	SP	407	0,24				NDA	110	0,19
GM	2	0,40	NZ	406	0,24				CCI	109	0,19
H^E	2	0,40	IR	395	0,23				EDE	108	0,19
H^I	2	0,40	NC	393	0,23				NTR	107	0,19
H^I´	2	0,40	IG	389	0,23				ATA	106	0,19
H^I'	2	0,40	ZI	383	0,23				ERI	106	0,19
H^J^	2	0,40	ZZ	352	0,21				VAN	106	0,19
H^K	2	0,40	RC	349	0,21				CER	104	0,18
H^N	2	0,40	MP	348	0,21				GIA	104	0,18
H,	2	0,40	OI	345	0,20				IMA	104	0,18
HE	2	0,40	EC	345	0,20				ORA	103	0,18
I,	2	0,40	IV	333	0,20				TAN	103	0,18
IF	2	0,40	FU	331	0,20				ORE	101	0,18
I'G	2	0,40	NN	330	0,20				SSO	101	0,18
J^V^	2	0,40	UI	318	0,19				ATI	99	0,17
LD	2	0,40	AP	316	0,19				CCO	98	0,17
LH	2	0,40	CU	310	0,18				MIO	96	0,17
LI	2	0,40	ID	307	0,18				NZA	96	0,17
LJ^	2	0,40	BI	305	0,18				TEN	96	0,17
LM	2	0,40	LU	304	0,18				ARO	95	0,17
LV_´	2	0,40	FE	302	0,18				RIS	95	0,17
MG	2	0,40	OP	300	0,18				OVE	94	0,17
MH^	2	0,40	GU	293	0,17				MOR	92	0,16
MJ^	2	0,40	GE	270	0,16				OLA	92	0,16
M'J^	2	0,40	DU	268	0,16				TAT	92	0,16
N,	2	0,40	FO	268	0,16				TER	92	0,16
NH^	2	0,40	BB	265	0,16				ONT	91	0,16
P,	2	0,40	EZ	259	0,15				RIT	91	0,16
Q,	2	0,40	RN	252	0,15				GGI	90	0,16
QD	2	0,40	GG	240	0,14				RIM	90	0,16
QF	2	0,40	BA	239	0,14				RON	90	0,16
Q'Q'	2	0,40	US	238	0,14				SOL	89	0,16
T.	2	0,40	RD	236	0,14				FAT	88	0,16
U.	2	0,40	NU	234	0,14				TTI	88	0,16
ZA	2	0,40	NG	233	0,14				ECC	87	0,15
	503		RR	231	0,14				RTE	87	0,15

Con todo eso, sólo me he atrevido a formular estas pocas hipótesis:

Q = o
L = i
M = c
A = s
F = r
N = p
E = l

Y obtengo esta birria:

s - - - - l r - - s - - - - - - - - i - - - c l - p - - - l - c o - - - p - - i - r - - i - - - l - p c - l - - - - - c - r l - - - p - - - - 
 
- - - s i - o l - l i - o - - - c - l - l - - i - - - r - - - - - l c - s o - - - - - - - - - - - p - - i - - - - - - - - l i - - s - i o - l 
 
- i - - - - c - - - i - l - - c - p - - i - - - - - r o l - - - r - - - - - - - - - - - - i - - - - - p - - - c - i o - - r l - - l - i - - - 
 
- - i - - - p - - - - c - - - - r - - o s i l c i l - i - i - - - - p - - - c - - - - - - - - - s r - - - - - - i - - c p - - - - c - - i - - 
 
i l - - l - - - i - - r - i - s i - r i
 
s - - i - - i - - - - - - i - - l - - o - - s r - - - - - i - - s c - - c i - o r l - - - - s - - - - - s - i - - c - p - - i l - - - - r - - 
 
- l - p - s - - - - - - - - c o l - - c - i l - - - - c - r - l - - - c - s - - o - - l - - - - - - - p - - r - - l - - - - i o - i - - - r - 
 
s - s - - - - - - c l - - s i l - o - i - - - i r - - - - o - - - c l - i - - - - - - - - l - - c - - - - i - o l - l - - - - - c - - - i - c 
 
l - - - - i o i - - - p - - i l - l i - - - - l o - - i - s - - - - - - - - - - i - r - - l i - - - c - - o l i l o - l - - - o - r - c - - i 
 
l o - o i l - o c - l - - r - - c i - - - - s - o - s - o - l i - - l p - - - - - - - - - - - o i - o l p - - - c - s - l s - - i o - - - - i 
 
- l - - - - i s - - - - - - s i - - l - r o - - l s - l - - p - - - c - - - r s - - - - - s - p - - - - - - - - - c - - - c o r - - - s l - - 
 
- i l p - r l - - l i o - i - - - l i - - - - i c o - - - - - i - s s - l - - l i - - - - - i c - r - - - - l - s i - - l - - i - p - - - i o 
 
- s - - r - - - - i s - i - - - - i - s i - r i

Circunstancias personales van a apartarme por un tiempo de esta brega. ¡¡¡Ayuda!!!

Tratandose de una carta

Tratandose de una carta en la que se ofrecía/proponia un metodo de cifrado, en el texto de la carta debería aparecer más de una vez la palabra cifrar, bien en español, italiano o latin.

Cifrare

Tengo la herramienta para insertar palabras cualequiera en el texto. Si se respetan las hipótesis anteriores, la palabra "cifrare" sólo puede intoducirse a partir de la posición 68. Ello produce nuevas hipótesis que repercuten en el texto "plano", que queda como muestro a continuación. Yo sigo sin ver gran cosa, y ello puede ser debido a varios factores, solos o conjuntamente:

1.  Las anteriores hipótesis eran falsas (todas o algunas)
2. La palabra "cifrare" no está en esa posición (o en ninguna)
3. El idioma no es el italiano
4. Tomamos como caracteres lo que a lo mejor son di-gramas, o al revés
s e - - - l r - e s - - - c - - c - i - - e c l - p - - - l - c o f - e p - e i - r r - i f e - l e p
c - l r e - e i c - r l e - r p c i f r a r e s i r o l - l i r o - - c c c l - l - r i - - - r r e - 
e - l c e s o - e - - - - r - r e - p r - i e - r - - - - e l i e - s r i o - l f i r - c - c e - r i 
- l r - c r p c r i - - e r r r o l r - - r e - r e - e - - e - - r i - e - - e p - r - c - i o r - r
l e - l - i c r - r - i - e - p e - - r c - e - r r - e o s i l c i l r i r i r - - - p - c e c - - e -
- r e - e s r e - - - r - i - - c p - r r - c - e i - - i l r - l - - c i r - r - i r
s i - r i
s e - i - c i r - - e - e i r - l - e o - - s r - - i - e i - - s c - e c i r o r l e - - - s e - e
- r s - i r - c r p - e i l e - - - r - - - l - p - s f r - i r - - c c o l - c c - i l - - - - c r r -
l - - - c - s e - o - - l - - - - c - e p - - r - - l e - - e i o - i r c - r e s - s - - - e - - c l
c - s i l - o - i e - c i r - - - - o e - - c l - i - - r - e c - e l - - c e - e - i r o l - l - e - 
e - c r - r i - c l - e - - i o i - - - p - - i l - l i - - - c l o e - i r s - - e - - e - - - - i - r - 
- l i - - - c c - o l i l o - l - - - o r r - c r - i l o - o i l - o c - l i - r - - c i c - - r s r o
- s - o - l i - - l p c r - e - - - e  - - r o i - o l p - f r c - s r l s r e i o c i - - i - l e - r
- i s - - - r - - s i - i l - r o e - l s c l e - p - - - c r - - r s e - - e - s r p - - - f e - e - 
r c - - r c o r - - - s l - - r i l p - r l c - l i o - i - - - l i - - - c i c o - - c - r i r s s - l e
- l i e - - - i i c - r c - - - l e s i - e l - r i - p r - - i o e s - c r - r - e i s - i - - - - i r 
s i - r i
Hipótesis (tras la inserción)
 
A s
. e
B' -
C -
D -
E l
F r
G -
H -
2 -
I -
J^ c
Hª -
,ª -
L i
M c
N p
P -
Q o
T f
S -
, r
U -
Eª -
V^ i
H! a
E1 -
I' -
Z -
A' -
O -
V´ -
V' -
1 -
_V' -
¬ -
H^ -
I´ -
Eº -
X´ -
5 -
D^ -
B -
V` -
R -
# -
4 -
X^ -
V_´ -
Q' -
B¨ -
Aº -
M' -
B´ -
B^ -
% -
V_' -
H' -
V_^ -
D' -
3 -
H´ -
I^ -
Ñ^ -
Z^ -
M^ -
Q^ -
Mª -
K -
S^ -
& -
@ -
´ -
ª -
Ñ -
%´ -
` -
¡ -
Ç -
Q´ -
Bª -
W -

Puedo tratar de insertar la palabra "cifrare" u otras cualesquiera, en otras posiciones, a ver qué resulta.

Si alguien tiene la iluminación de ver alguna posible palabra (o esbozo de ella) en el texto (italiano o no) que lo comunique, o que aplique por su cuenta las hipótesis correspondientes, a ver si sale algo.

P..S.
Hay que hacer constar que la transcripción de la que parto es bastatante chapucera. Si alguien se apunta a transcirbir todo el texto, por ejemplo a partir de la última de Asier, podríamos inentar nuevas estadísticas y formular nuevas hipótesis. La faena es algo engorrosa, porque consiste en ir cambiando cada garabao del texto cifrado, por el elemento asignado por Asier, estando todo disponible en http://www.kriptopolis.com/comment/1602#comment-1602

Debo añadir que no acabo de ver conveniente la conversión de todo a números; pero si vuestra idea del parser así lo requiere, no seré yo quien se oponga.

Transcripción y parser

Agustín, si te fijas la transcripción creo ya la hizo Asier y esta disponible en https://dl.dropbox.com/u/3297331/codes_inline.html . Aunque al abrir este archivo lo que se ve no se puede procesar directamente, se pueden obtener fácilmente los símbolos a partir del código fuente utilizando como delimitador div title=" y leyendo hasta el siguiente ". Si aplicas lo anterior y además se cambia &#194;&#186; por º lo que se obtiene es:

[3][.][1v][,] [_] [f][ze][)] [_] [y][U][.] [_] [3][S][,][.] [_] [z][r|][,][.] [_] [Sº][r|][,][º] [_] [l][S][f][.] [_] [S2][)][S][h][,][.] [BRK]
[ze][U][)] [_] [jv'v'][S2] [_] [u)][o][U][.] [_] [h][v'v'][.] [_] [l][z][y][,] [_] [ze][l][o][.] [_] [o)][)][.] [BRK]
[h][S2][,] [_] [S][)][,][.] [_] [Sº][,] [_] [v|][S2] [_] [z][y][)] [_] [.][ze][,] [_] [h][r|][,] [_] [v|][o][,] [_] [S][|][rr|] [_] [,] [BRK]
[3][l][,] [_] [u)][)] [_] [jv'v'][)][l][,] [_] [u)][)][.][,] [_] [1v'][r|][,] [_] [S2][r|][)] [_] [S][)][S][,] [_] [l][z'][,] [BRK]
[U][y][,] [_] [.][fR][.] [_] [f][)][S2][.] [_] [3][u)][3]['][.] [_] [o)][v_^][,][.][jv'v'][,][v^][,] [_] [,][ze][h][,] [_] [v^][l][.][S][,] [BRK]
[1v'][U][,][f][.][)][l][.] [_] [z][3][,] [_] [l][u)] [_] [v_^][)][o][l][,] [BRK]
 [BRK]
[1v'][r|][:] [_] [S2][.][U][,] [_] [l][S][|][)][,] [_] [1v'][S2][,] [_] [h][r|][,] [_] [l][z][U][.] [_] [,] [_] [,] [BRK]
[y][u)][)][,] [_] [ze][U][y][.] [_] [z^][,] [_] [.][ze][.] [_] [fR][r)][.] [_] [ze][f][,] [_] [l][-^][.] [_] [f][S|][.] [BRK]
[h][.][U][.] [_] [U][S2][,][.] [_] [l][u)][,] [_] [jv'v'][y][)][.][o)][)][,][,][.] [_] [l][r|][,] [_] [jv'v'][,] [_] [v'v'] [BRK]
[l][z'] [_] [S|][h][.] [_] [1v'v'][,] [_] [S2][U][.] [_] [1'r'][,] [_] [y][ze][.][u)^] [_] [3][l][)][S2] [BRK]
 [BRK]
[l][)] [_] [,][l][,] [_] [l][,] [_] [ze|] [_] [z][S|] [_] [h][1vr|] [_] [S2][S|][U] [_] [U][1v^v'] [_] [,][º] [BRK]
[zef][.] [_] [3][y][.][j'v'v'][,][,][,] [_] [f][,] [_] [ze][l][-|] [_] [S|][S2] [_] [h][_v^][,] [_] [,] [BRK]
[_v^][S2][u)] [_] [U][1v^] [_] [l][S|][z'] [_] [l][)][,] [_] [U][)] [BRK]
 [BRK]
[1v^][S|] [_] [r|][l][,] [_] [3][^] [BRK]
[y] [_] [S2]['] [_] [l][,] [BRK]
 [BRK]
[3][l][1v^] [_] [y][l] [BRK]
 [BRK]
[3][.][1v|] [_] [l][_v^] [_] [r|][l][,] [_] [S2'][ze][.] [_] [jv'v'v'][.][l][,] [_] [f][)] [_] [S|][.] [_] [u)][U][,][.] [_] [3][y][o)] [BRK]
[S|] [_] [v|][o)][.] [_] [l][_v'][,] [_] [S'][3] [_] [S2][ze][.] [_] [S2][.][l][,][.] [_] [u)][y][,] [_] [fR][-|] [_] [U][3][.] [_] [ze][.][z][,] [BRK]
[3][S|] [_] [l][,] [_] [1v'][S2][,] [_] [h][S|][.] [_] [l][)][.] [_] [u)'] [_] [u)'] [_] [u)'] [_] [y][S|] [_] [zº] [_] [f][)] [_] [_v^][h][_v|] [BRK]
[3][o][,] [_] [o)][v|][,] [_] [ze][.][:]['] [_] [r|][S2] [_] [u)][)] [_] [1v^] [_] [r|][S2][S|] [_] [l][)][S|] [_] [z^][u)'] [BRK]
[U][S2][)] [_] [y][S|][)] [_] [fR][1v^] [_] [f][S2][ze] [_] [3][.][S|][u)] [_] [o)][ze][)] [_] [_v|][1v|][,] [_] [jv'v'][z'] [_] [r|][ze][.] [BRK]
[h][v^][.] [_] [o)][y][S|][.] [_] [f][)][.][jv'v'v'][ze][.] [_] [l][u)] [_] [o][)] [_] [1v^][l][,] [_] [r|] [_] [S|][y][.][3][z|][º] [BRK]
[3][z'] [_] [_v'][fR][.] [_] [v'][1v^] [_] [S2][)] [_] [r|][fR] [_] [3][l][)] [_] [S|][u)] [_] [ze][l][.] [_] [S2'][r|] [BRK]
[l][y][,] [_] [S][1v'][.] [_] [ze][u)][.] [_] [jv'v'][v|][.] [_] [S|] [_] [l][S][v^][,][o)][.][r|][fR)][)] [_] [S|] [_] [z^][S2] [BRK]
[S|][.] [_] [S'][l][,] [_] [u)][)] [_] [jv'v'v'][)][h][.] [_] [h][.][1v^][S2][,] [_] [v|][,][l] [BRK]
 [BRK]
[1v'][S2][)] [_] [fR][|][.] [_] [v'v'][S|][º] [_] [l][u)] [_] [l][S2|] [_] [ze][u)|] [_] [h][S|] [_] [_v^][l][)] [_] [1v^][)][l][S2][º] [BRK]
[z'][S2'] [_] [r|][)][u)][.][ze][l][,][3] [_] [S|] [_] [ze][.][u)'] [_] [v|][ze][,][.] [_] [l][U][y][,][U][)][l][S|][.][-6][,][.] [BRK]
[S2][r|] [_] [S2|] [_] [u)][)] [_] [l][)][u)] [_] [-6][)][S|] [_] [z^] [_] [v|][u)][)] [_] [y][1v'] [_] [S2][,] [_] [S|] [_] [l][)][u)] [_] [-7] [BRK]
 [BRK]
[jv'v'v'][u)][l][,] [_] [-6][u)] [_] [S2][ze][)] [_] [_v^][u)'] [_] [y][S|] [_] [v'v|][S2] [_] [l][r|] [_] [fR] [_] [z][,][º] [BRK]
[3][.][u)] [_] [v'v'] [_] [3][S|][u)] [_] [ze][)][l] [_] [1v^][U][)] [_] [h][r|][,] [BRK]
 [BRK]
[1v'][ze] [_] [S2|][U]['] [_] [v'v'v'v^][1v][,] [_] [u)][l] [_] [z'][u)][)] [_] [h][o)][o][,] [BRK]
[S2][1v^][3][,] [_] [3][,] [_] [l][u)] [_] [r|][v|] [_] [j_][U] [_] [l][ze][)] [_] [u|][,] [_] [U][l][3] [BRK]
[1v'] [_] [1v^][.][,] [_] [1vº][3][l][_v'] [_] [v|][)][fR][y][u)] [BRK]
 [BRK]
[1v|][)] [_] [3][r|][)] [_] [U][h][_v'] [_] [u^][o)][.] [_] [S|][u)'] [_] [y][3][.] [_] [1v|][v'][.] [_] [fR][3][,] [_] [h][ze][,][.] [BRK]
[U][)][o][.] [_] [f][.][jv'v'v^][.] [_] [S2][U][v^][.] [_] [S2][u)][y][S|] [_] [z'][3][)] [_] [u|][1v] [_] [.] [BRK]
[l][)] [_] [h][1v^][.] [_] [y][)][.] [_] [r|][S|][)] [_] [l][u)] [_] [v'v'v'][l] [_] [z'][U] [_] [ze][)][l] [_] [ze][_v^] [BRK]
[v|][r|][,] [_] [l][S2][u)] [_] [jvv|] [_] [S|] [_] [r|] [_] [1v][,][l][,] [BRK]
 [BRK]
[3][3][u|][)] [_] [1v|][)][l][.] [_] [U][z'] [_] [ze][v|] [_] [l][S2][u)^] [_] [y][r|][S|] [_] [-6][_v^][)][.] [BRK]
[3][l] [_] [f][.][)][1vº][,][.] [_] [l][z'] [_] [h][,] [_] [1v^][U][l][u)][.] [BRK]
 [BRK]
[3][1v|] [BRK]
 [BRK]
[r|][y] [_] [jvv^][,] [_] [fR][)] [_] [l][3][u)'] [_] [l][z^] [BRK]
[U][u|] [_] [ze][l][,] [BRK]
 [BRK]
[3][l] [_] [1v^] [_] [y] [_] [l] [BRK]
 [BRK]

Además, he empezado a hacer un parser que se podrá configurar con un archivo con el siguiente formato:

#DEFINE SFF
sff1 sff2 ... sffN
#DEFINE SI
si1 si2 ... siN
#DEFINE M
m1 m2 ... mN
#DEFINE SM
sm1 sm2 ... smN
#CONFIGURATION
param1=value1
param2=value2
...
paramN=valueN

donde:

Se pueden insertar comentarios en el fichero poniendo como primer caracter de la línea //
Cada sección cierra la sección anterior y el final de fichero cierra la ultima
Si se omite alguna de las secciones posteriores se utilizarán los valores por defecto. En las definiciones quiere decir que se utilizará el conjunto vacío.

Y los símbolos se dividen en:

SFF (Símbolos finales fijos): no se ven alterados por nada. Se pueden convertir directamente a simbolos finales sin que sea necesario procesar los simbolos de alrededor. Ninguno de estos simbolos puede estar contenido dentro de otros simbolos.
SI (símbolos iniciales): agrupan uno o más caracteres que pueden verse modificados por otros símbolos.
M (modificadores): afectan al simbolo de su izquierda, pero si antes no hay ningún simbolo entonces adoptan significado propio.
SM (superModificadores): siempre afectan al simbolo de su izquierda y no tienen valor por si mismos

y un ejemplo de archivo de configuración podría ser:

//1.Fichero de configuracion 0
 
//1.1.Lista de simbolos
 
//1.1.1.Lista de simbolos finales fijos
#DEFINE SFF
r`r` v`v`
 
//1.1.2.Lista de los simbolos iniciales
#DEFINE SI
3 1v f ze y U S 
 
//1.1.3.Lista de los modificadores
#DEFINE M
. , · ;
 
//1.1.4.Lista de los super modificadores
#DEFINE SM
| ` ^ '
 
//1.2.Configuracion 
#CONFIGURATION
//1.2.1.Fichero del que se obtienen los simbolos
SEPARADOR_INICIAL_SIMBOLOS_ORIGEN="["
SEPARADOR_FINAL_SIMBOLOS_ORIGEN="]"
SEPARADOR_PALABRAS_ORIGEN="_"
SEPARADOR_LINEAS_ORIGEN="BRK"
 
//1.2.2.Fichero en el que se guardan los simbolos
SEPARADOR_INICIAL_SIMBOLOS_FINAL=""
SEPARADOR_FINAL_SIMBOLOS_FINAL=" "
SEPARADOR_PALABRAS_FINAL="  "
SEPARADOR_LINEAS_FINAL="\n"
 
//1.2.3.Forma de procesar
//1.2.3.1. Este parametro no se puede cambiar por ahora. Indica si los simbolos finales que se obtienen de una palabra no se ven afectados por los simbolos que contienen las demas palabras.
//PALABRAS_INDEPENDIENTES=True
//1.2.3.2. Establece un automata finito determinista (cada fila es un estado, cada columna indica que leemos un simbolo inicial, un modificador o super modificador, respectivamente y cada
// lugar en la table dice a que estado vamos, para simplificar se puede utilizar la F para indicar que salimos del AFD, P para indicar que procesamos la palabra acumulada per nos quedamos sin
//salir del automata,Q para indicar que nos quedamos en ese estado. La opción P se puede combinar con Q o con el estado al que saltamos). Con este automata
//podemos decidir que hacer al ir procesando simbolos. Encontrar un símbolo final fijo o un final de palabra en el texto que procesamos equivale a una F. En todos los casos lo que procesamos
//es lo que teniamos, es decir, sin contar lo que acabamos de leer y que nos ha llevado a cambiar de estado.
AFD_CONCANTENACIONES=QP 1 3\
F 2 F\
F F F\
F F P4\
F F F
//1.2.3.3. Se coge el último carácter del símbolo final anterior (siempre que no estemos a principio de palabra) para establecer el estado inicial del automata AFD_CONCATENACIONES. Si este
//ultimo caracter no pertenece a la lista de modificadores o super modificadores se considera que ha sido un simbolo inicial. De momento no se utiliza este parametro
//CONSIDERAR_SUBSIMBOLO_ANTERIOR=False

Lo más interesante del ejemplo anterior, es el autómata finito determinista ( http://es.wikipedia.org/wiki/Aut%C3%B3mata_finito_determinista ) que permitirá decidir como se relacionan los diferentes símbolos.

Una cuestión que aún tengo que mirar como solucionar es lo que decia tokamak

Y con la opción contraria, que un sólo símbolo genere dos números: [1v'] => 56, 25 ya que los modificadores pudieran ser vocales con las que construir sílabas.

¿Esta opción de que un símbolo o una parte genere más de un número, quiere decir que cuando se encuentre un modificador y queramos generar más de un número, el número influenciado por el modificador debe ser siempre el mismo?. Por ejemplo [1v'] => 56, 25 y [u)'] => 40, 25. Lo digo porque creo que hay más modificador y super modificadores que vocales.

¿Qué os parece?

Parser y otros programas

Acabo de subir a https://github.com/clascrip/RetoSertori el Parser, podéis compilar vosotros mismos el código con la herramienta Apache Ant (y teniendo el java development kit instalado) o bien descargarlo ya compilado de la carpeta Parser/dist.

Aunque seguramente aún tiene algunos errores y hay que acabar de retocar varias cosas, he probado un ejemplo sencillo y parece que funciona, además quería tener lista una primera versión con la que hacer pruebas para, en caso de que se pueda, adaptarla a nuestras necesidades, o si vemos que necesitamos algo más potente que un autómata finito determinista, no perder tiempo y probar con una gramática libre de contexto.

Para hacer las pruebas que comentaba antes y poder adaptar el parser, habría que definir los diferentes conjuntos de símbolos y crear el autómata finito determista. ¿Tenéis alguna idea de cómo hacerlo?.

Aparte del Parser, he estado pensando en crear otros programas con ideas que ya se han ido mencionando, de esta forma seria más fácil que todos podamos hacer pruebas y además que obtengamos los mismos resultados. Los programas en los que he pensado son:

Histograma n-gramas

parámetros
	abecedario
	símbolos sinónimos (por ejemplo, á=a o simplemente, convertir palabras con acento a sin acento)
	¿contar espacio como un símbolo más?, ¿si lo contamos, contar cualquier número de espacios como uno?
	¿signos puntuación?
 
formato salida
	primera linea número símbolos
	otras lineas: ordenado por frecuencia, simbolo - numero apariciones

Comparación histograma n-gramas

introducir m ficheros con histogramas con el formato indicado antes, es decir,
	la primera linea contiene el número simbolos
	las otras lineas, ordenado por frecuencia, simbolo - numero apariciones
indicar si establecemos un límite
	número símbolos: máximo numero de simbolos a comparar
	frecuencia mínima: 
		absoluta: que el i-esimo símbolo más frecuente en cada fichero tenga más de K apariciones en ese fichero.
		relativa: que el i-esimo símbolo más frecuente en cada fichero tenga más de K% apariciones en ese fichero.
formato salida
	la primera linea contiene los identificadores de los histogramas, ejemplo: "transcripcion castellano italiano latin" 
	otras lineas: cada linea contiene los pares [simbolo frecuencia]

Distancia entre textos

introducir 2 ficheros con histogramas con el formato indicado antes, es decir,
	la primera linea contiene el número simbolos
	las otras lineas, ordenado por frecuencia, simbolo - numero apariciones
indicar si establecemos un limite
	número símbolos: maximo numero de simbolos a comparar
	frecuencia mínima: 
		absoluta: que el i-esimo símbolo más frecuente en cada fichero tenga más de K apariciones en ese fichero.
		relativa: que el i-esimo símbolo más frecuente en cada fichero tenga más de K% apariciones en ese fichero.
la aplicación muestra la distancia euclidea tomando como coordenadas del texto la frecuencia de los simbolos ordenados por frecuencia y teniendo en cuenta el limite indicado antes.

Probador de palabras en la transcripción

dado un fichero con palabras a probar
un fichero con palabras a encontrar una vez hecha la substitución
un directorio donde guardar los ficheros generados (pueden ser muchos)
modos	
	generar las posibles combinaciones y guardarlas en ficheros (no hace falta el segundo fichero)
	generar las posibles combinaciones y mirar si alguna contiene una de las palabras del segundo fichero (tener en cuenta que si el segundo fichero contiene la palabra que estamos mirando, es obvio que esta como minimo aparece una vez, ya que si hemos llegado a la parte de la comprobación entonces es que la hemos podido encajar). Si alguna combinación da positivo, guardarla en un fichero.

¿Os resultarían útiles estos programas?.

Aupa Agustin,

Aupa Agustin,

Los textos estan practicamente transcritos: https://github.com/doup/Sirtori/tree/master/input 01.txt, 02.txt y 03.txt, que corresponden a las imagenes que hay aqui: https://github.com/doup/Sirtori/tree/master/input/images (01.png, 02.png y 03.png)

Lo "unico" que hay que hacer, si alguien se anima (que seguramente terminare haciendolo yo en algun momento), es darle un repaso a https://dl.dropbox.com/u/3297331/codes_inline.html comparandolo con las imagenes y ver si hay partes que hay que afinar.

Luego, se convierte a lo que sea, si quires incluso lo podemos convertir a tus codigos. Lo que te vaya mejor, pues eres el unico que le esta dando a la estadistica.

Bona nit!

Esto parece Juego de Tronos

¡Cachis! Ya se que no aporto nada (mi mente está sobrepasada por éste, y cualquier reto), pero me siento como cuando terminó la temporada de Juego de Tronos, que entro todos los días para ver si se avanza en el reto pero que hay un parón en las noticias y parece que toca esperar...;-)

¡Animo campeones que intuyo que estáis cerca de la solución!

Desde el principio

Llevo un tiempo preparando una transcripción ecléctica, inspirada en el modelo Tokamak, con algunas ideas del modeo Asier. La tengo bastante parada, en parte por el marasmo estival y otras ocupaciones, y en parte porque me da una pereza y un miedo tremendos. Hoy he retomado el suplicio, y me surge de nuevo la eterna pregunta: ¿Qué es un simbolo?. ¿Son las famosas V's múltiples símbolos independientes, o forman parte de un mismo símbolo? Cada vez estoy más inclinado a la segunda opción. Por una parte, la frecuencia de ls V's va a salir extremadamente alta -creo- si las tomamos como símbolos independientes. Pero, además, me he encontrado con un símbolo formado por dos v's con sus correspondientes churritos, que lleva asociado, globalmente, un gran churro volador, en medio de ambas (2 texto, tercer párrafo, primera linea, 6º grupo), como muestro más abajo. Y, a menos que los símbolos con V's estén formados por más elementos, como los tramos horizontales entre ellas, ese grafismo apoyaría la idea de que los grupos de v's son símbolos únicos y, por extrapolación, todo trazo continuo forma un símbolo. Se me olvidaba decir que en el caso de optar por esta hipótesis, los churritos que acompañan "sdiempre" a las Vs serían parte del propio símbolo, bien sea éste una letra o un n-grama, que ésa es otra.

Joder, con el Sertori.

Imágenes: 

Empiezo a ver

Empiezo a ver que sabes por dónde tirar. En estos momentos no puedo más que animarte, porque estoy emborricado con mi transcripción, aunque a punto estoy de abandonarla y trabajar con la tuya, ya que la de Asier me resulta algo compleja. ¿Tienes alguna nueva versión mejorada? O, sencillamente, ¿en qué enlace está la última que hiciste?

Páginas

opinar

Texto puro

  • No se permiten etiquetas HTML.
  • Saltos automáticos de líneas y de párrafos.
By submitting this form, you accept the Mollom privacy policy.