Un reto de altura: el documento Sirtori

Imagen de tokamak
Enviado por tokamak en

Foros: 

Por tokamak

Os propongo todo un reto a la altura de Kriptópolis.

Aquí tenéis publicado un proyecto fin de carrera de la Universidad Carlos III de Madrid. La autora, Sara Gómez Hernández, analizó en ese proyecto (pdf) diversos documentos históricos españoles, cifrados con el método de sustitución monoalfabética, utilizando para ello la herramienta Cryptool.

Lo más interesante del proyecto es El Documento Sirtori (p 84-93), un texto cifrado del siglo XVI, del que no se dispone del correspondiente texto en claro, ni de información contextual precisa.

La autora se decanta por considerarlo un cifrado de sustitución simple (p. 65), aunque no llega a descifrarlo, entre otras cosas por la considerable dificultad de interpretación que presentan los caracteres.

Creo que debería poderse descifrar, ya que se dispone de bastante texto, y sería un magnífico e histórico logro para Kriptópolis conseguir desvelar el contenido de un documento de hace cuatro siglos.

A ver qué os parece. Yo discrepo con la autora y, en principio, el texto me parece una cifra homofónica, quizá con un silabario, con cierto parecido con algunas contemporáneas.

Manuel Lucena

Recuerdo hace años que Manuel Lucena explicó como se rompían las cifras monoalfabéticas con homofonos y proponía hacer sistemas de ecuacione que tuvieran como resultado la frecuencia de la letra en claro y a continuación ir probando frecuencias de los caracteres cifrados ya que decía que normalmente se usa mucho más uno de los homófonos (de hecho decía que ese es el problema de ese tipo de cifra, que el cifrador está tan hasta las narices que tiende a usar siempre el mismo homofono)

Apoyo moral

Yo sigo al día vuestros avances, pero me veo superado por el demonio Sartori-Sirtori-Sirturo. Veo el monumental trabajo que hacéis tokamak y tu y no puedo mas que admiraros.

Quisera saber cómo hacían en aquella época para atacar una cifra homofónica con solo un texto cifrado.

Al final tendré pesadillas en las que descubrimos que parte del texto final nos dice: "saludos a los frikriptoanalistas del siglo XXI"

¿Y si no es Sirtori?

Poco tengo que aportar, aunque lo estoy siguiendo con tanto o más interés que la serie Enigma.

Sin embargo, buceando un poco he encontrado la siguiente página en la que está escaneado un libro del tal Sirtori, escrito en latin. Lo he revisado por si veía alguna marca similar al texto que se está estudiando y no he encontrado nada. Sin embargo, el nombre del autor es Hieronymi Sirturi .

http://digital.slub-dresden.de/en/workview/cache.off?tx_dlf%5Bid%5D=8968...

No se si esto ayuda en algo o no, pero los que de criptografía sabemos muy poco o nada nos guiamos por intentar buscar patrones y diferencias.

Agustín, ¿Cambiaría algo el problema de la firma si en vez de RTO se buscara RTU o RTV?

Animo, que como lo consigáis vais a poder fardar un montón...;-)))

Fardar

Líbrenos dios de presumir, porque si algo ayuda en este oficio es la humilde tenacidad y el espíritu de colaboración.

Tal como yo lo veo, si se consiguiera, sería una gozada, pero el mérito estaría muy repartido. Hasta ahora, la pieza clave es el trabajo de transcripción de Tokamak, sin el cual nada se podría hacer. Y espero que esté más repartido todavía, porque creo que va a haber una avalancha de colaboraciones. Hemos visto en otros retos cómo una información que a uno no le decía nada, a otro le daba la llave del problema.

Si se consiguiera..., qué mérito para un sitio como Kriptópolis, que facilita la existencia de un ambiente como el que aquí se respira.

A vueltas con los "hallazgos"

Podría ser que el encabezamiento fuera, en efecto, la abreviatura "Sor", es decir, que el símnbolo B, con el churro volador, o seguido de la coma, equivaliera al digrama OR, con lo que de nuevo parecería que Tokamak tuviera clarividencia. Pero tanto podria ser que el churro añadiera una O a la R, como una R a la O. (¿un César-3 sobre la O?)

Voy a parar, porque creo que ya tengo visiones, y no son claras.

relaciones

Hace unos días puse un pequeño dibujo de las correspondencias que vi entre dos líneas, y que puede ayudar a asignar unos símbolos desplazados a otros. Por como está el hilo, cayó en la página 2 cuando ya estábamos escribiendo en la tres. Quizás estabas, como yo, actualizando la página 3 y no lo has visto. Si es así, quizás te ayude.

Si lo ha visto, perdón por el post.

Lo he visto

Pero no he sabido sacarle partido, aparte de que he tenido poco tiempo y le he consumido tratando de desbrozar las estadísticas. Creo que deberías exponer aquí esa idea, explicándola lo más ampliamente posible. Aunque yo no consiga entenderla, seguro que hay otros que podrán sacar partido, entre ellos tú mismo.

Bien, Tokamak

Un poco más de texto nos vendrá muy bien.

P.S.
Hay más tela de lo que parece, caligráficamente hablando. Hay modificadores que se parecen pero no son idénticos a los detectados. Hay churros voladores de varios tamaños y formas. Algunos sobrevuelan por fuera de la palabra, sobre un punto. Hay algunos caracteres no detectados, o habría que admitir que a veces se juntan los trazos de algunos signos.

Imágenes: 

Churro volador y tipos de churro

Viendo la promiscuidad y ubicuidad del churro volador, he llegado a plantearme la posibilidad de que sea un modificador que lo que hace es volver un carácter nulo. La introducción de caracteres nulos ya se practicaba y dificultaba enormemente la tarea de criptoanálisis.

Precisamente, en el enlace que pone squirrel sobre la cifra de Felipe II, cuando habla de los dúplices a continuacion indica la regla de los nulos y dice textualmente: "serán [nulas] todas las letras o caracteres que tuvieran un punto encima o debajo o de cualquier forma que sea, y a lo menos se pongan en cada renglón cuatro".

No sé si es que de mirarlos tanto empiezo a confundirlos pero me parece que los hay de dos tipos (aunque la diferencia es un poco artificial y en algunos casos indistinguible). Están los churros de cabeza angulosa y piernas separadas(Tipo 1), y luego tenemos los de cabeza redondeada y pies separados (Tipo 2).

Os pongo también, aunque de una forma caótica, todos los signos que he logrado identificar pero un poco "remasterizados"

Imágenes: 

Muestra de tipos de churros

Buen punto de partida

Buen punto de partida para acometer una nueva transliteración. Por cierto, una vez que uno bucea en estos garabatos acaba reconociéndolos, de forma que ya no sería tan necesario que Tokamak cargara él solo con esa pesada carga.

Estoy de acuerdo con la lista de caracteres "básicos", aunque creo que faltan al menos un par de churros, que figuran en los gráficos de mi anterior mensaje. Pero a veces uno duda si dos trazos son realmente diferentes o si se trata de un defecto en la caligrafía.

También me atrae la idea de los caracteres nulos, lo que explicaría la sobreabundancia de ciertos trazos, sobretodo del Gran Churro volador, (transcrito como O) y del transcrito como L, que aparece dos veces en la firma. Ahora que lo dices, creo que sería lógico tratar de enmascarar un poco la firma poniendo ruido en ella, pues estas gentes ya sabrían que por ahí se podía atacar. Lo que no entiendo es por qué dejaban ver el formato del texto, donde la zona de la despedida y la de firma están reconocibles. Podían haber escrito todos los trazos seguidos, sin más. ¿O es una pista falsa?

Cada vez me parece más difícil el problema.

P.S.
Las habilidades caligráficas de las gentes instruídas de esa época eran muy superiores a las de la actualidad. Creo que no dibujarían un churro picudo si debía ser redondeado, con lo que deberíamos considerarlos distintos.

Si existen caracteres nulos,

Si existen caracteres nulos, y puede ser que el churro volador los anule, entonces puede ser útil la relación de líneas que he comentado.

Si se miran estas líneas, cogidas las primera y tercera de un texto y la segunda y cuarta de otro, se ve que hay una alta correlación de símbolos. Sin embargo, una de ellas tiene más símbolos en medio que la otra. A los que están en las dos líneas los llamaré símbolos correlados.

Hay símbolos entre símbolos correlados de una línea que no están en la otra, podrían ser símbolos nulos. También hay símbolos distintos entre símbolos correlados distintos en ambas, que podrían ser homófonos.

Estoy de exámenes y no me puedo poner a hacer un estudio en profundidad, pero estoy convencido de que esas dos líneas cifran el mismo texto.

Imágenes: 

relación de símbolos

Modificadores

En la primera y la segunda (1ª y 3ª del primer documento) no hay más coincidencias de las que habría entre dos líneas de un texto cualquiera, como muestro en la figura adjunta. Hay que reconocer que las otras dos líneas tienen muchas más coincidencias, aunque no serían tantas si tuviéramos en cuenta que algunas líneas verdes unen signos afectados de distintos modificadores.

Tal vez sea simplemente debido a que se trata de caracteres frecuentes, quién sabe.

Quizá nos pueda resultar útil para ver el papel de los modificadores.

Una idea que me ronda la cabeza es que el documento podría consistir en una explicacion -cifrada- del propio método de cifrado, y ahí si que tendría sentido esa serie de repeticiones, algo variadas.

De lo que no tengo ni idea es de cómo sacarle partido con la inmadurez de nuestro conocimiento del problema. Pero es posible que otros -tú mismo- sí sepan.

Imágenes: 

Entiendo lo que dices y me

Entiendo lo que dices y me parece bien que critiques la idea para ver si tiene sentido, pero creo que el contraejemplo no vale. La cifra tiene un numero de simbolos mucho menor por linea, por lo que creo que la correlacion es mucho mas significativa,

OK

Compruebo que, en efecto, tú te orientas mejor en este laberinto.

Me vienen a la mente, alternativamente, lo que es malo, y a veces a la vez, lo que es peor, dos pensamientos contradictorios:
Por una parte pienso que tal vez los modificadores no cumplan ninguna regla lógica del tipo "desplazamiento", etc, sino que se trate de una asignación arbitraria, de tipo, "si lleva un churro largo es la sílaba OR, y si lo lleva corto es la sílaba MA. Pero a veces pienso que el sistema debería ser más cómodo para cifradores y descifradores -ya es bastante con saberse los garabatos-, habida cuenta de que no convendría que participaran muchas personas en el secreto, y que quizá sea todo más sencillo como: "con el churro grande, MA, y con el churro pequeño, "ME", etc.

yo no ataco a sartori

sartori me ataca a mi... espero que esto por lo menos consiga despertar una sonrisa, pero esta mañana recien despertado y segun me estaba vistiendo, en la estanteria donde tengo los libros, de repente he visto algo por el rabillo del ojo y se me han abierto los ojos como platos!!!!!!

alli entre el hobbit y la doncella de hielo me encuentro un libro que encontre por casualidad en una terminal de aeropuerto hace unos cuantos años escrito por un tal.... Giovanni .... SARTORI !!!!! O_O

Sirtori's affair: Cipher Mysteries se interesa en el asunto

Nos comunica admin que el asunto Sertori se ha internacionalizado. Un gurú de Cipher Mysteries se hace eco del trabajo de la Dra. Gómez, de una manera bastante crítica, Viene a decir que se saltó todas las marcas sobre los trazos, sin ningún motivo, en lo que estamos de acuerdo, Y si la transcripción es mala, todo lo que se haga con ella será inútil. También menciona que se está discutiendo del tema en Kriptópolis, pero no le parece que hayamos encontrado nada interesante. ¡Que espere un poco, y verá!

"...Because if you start out by getting the transcription basically wrong, there’s a high chance you’ll have little or no success with all the subsequent stages that stand upon that transcription...."

"...What seems to have happened is that nearly all the punctuation-like marks have been discarded in the transcription (and for what reason? None!)… but this is surely a recipe for disaster!..."

"PS: incidentally, there’s some online discussion on this here in the Spanish Kriptopolis security blog, but I didn’t notice anything that seemed hugely informative or crackworthy – please feel free to tell me if I’ve missed something big there!"

Y ahora tenemos un competidor. El gurú, cuyo alias es nickpelling, le ha pasado el problema a un amigo suyo, un tal Tony Gaffney, quien seguramente "verá claro a través de esa escritura florida". O sea, que tenemos que darnos prisa. ¿Has oído, Tokamak?

Por lo visto, el Gaffney tiene a sus espaldas algún logro importante, como esta rotura de un código de Bellasso Aunque me parece a mí que enfrentarse a Bellaso viene a ser como romper un Vigènere, y no hay que lidiar con misterios caligráficos como el que nos ocupa.

Disfrutarlo

Yo creo que no importa tanto el hecho de romper el cifrado como la aventura de romper la cifra. Si otro se adelanta, pues bien por él. Sé que hay más textos similares pendientes de que alguien le hinque el diente.

El autor se lo tiene un poco subidito y menosprecia un poco a los demás. Para empezar cree que el trabajo es una tesis, cuando es un proyecto de fin de carrera. Desde luego no se parece a una tesis (realmente no aporta conocimiento, sólo demuestra "maestría" en su uso). Así que o no sabe como es una tesis, o cree que aquí son así... Y luego se ríe por no haber tenido en cuenta los modificadores, y ni si quiera se plantea si el escaneo es correcto o como son los trazos. Vamos, que a mi me parece que se lo tiene un poco creído, desconozco los trabajos que le respaldan.

Hasta ver si él lo rompe antes, yo simplemente disfrutaría del camino: buscar información, los posibles hallazgos, el grupo de gente que se ha formado, como cada uno ataca de forma distinta, etc...

Tengo un método

Tan solo necesito dos cosas: Una buena transcripción completa y una lista de palabras que probablemente están en el texto, y que no sean abreviaturas ni usen silabarios. No es una cosa del otro mundo: Tan solo un poco de fuerza bruta, nomás...

¡No!

¡No, más garabatos, no! Por la noche vienen reptando, y se suben a mi cama, y puedo verlos por las paredes... ¡¡Enfermeraaaaaaa!!

Primer paso

Antes de que tokamak se devane los sesos y se deje los ojos para hacernos otra transcripción, deberíamos ponernos de
acuerdo en el número de signos. Habría que "pasar a limpio" el documento para identificar cada punto, cada coma y descartar las cagadas de mosca. Si hace falta ir línea por línea pues se hace así. Una vez pasado a limpio y consensuado un documento base, podríamos partir de una base clara y común. A lo mejor así Agustín puede hacer su prueba.

Podemos usar mi "vocabulario remasterizado" (una vez añadidos los signos que faltan) como base para el documento en limpio. ¿Qué os parece?

Quedó atrás el tema de conseguir mejores imágenes de los documentos ¿no?, pues a la dificultad de acceder a ellos se suma la complicación técnica y de técnica que supone fotografiar un documento así si no se ha hecho antes y no se tienen buenos medios (la cámara de iPhone no sirve, jeje). Tener mejores imágenes sería ideal.

Remasterizado

¿"Remasterizado" quiere decir que has dibujado tú los símbolos? A mí me parece bien. A ver qué opina Tokamak, que es quien lleva el negocio de los churros.

final de los escritos

como alguien ha dicho la solución está en descifrar el final de los dos textos.

el texto final parece ser el nombre del firmante del escirto (en los dos casos es el mismo), y lo qque le antecede (las dos pequeñas lineas a la drecha) parece ser la fecha.

Os dejo un enlace a una carta de pedro de valdivia, que finaliza así: Desta ciudad de Santiago a 26 de otubre de 1552 años.

-De Vuestra Alteza el más humillde súbdito y vasallo que tus Reales manos besa.

Pedro de Valdivia

http://es.wikisource.org/wiki/Carta_de_Pedro_de_Valdivia_al_pr%C3%ADncipe_Felipe_(26_de_octubre_de_1552)

pie de la carta

Pues me he picado con el asunto.

Lo que sugieres de buscar cartas a Felipe II ya lo he hecho, pero si supiésemos la fecha de estas cartas se acotaría bastante el asunto. He buscado información de Luis valle de la cerda y creo que las cartas deben ser del año 1600.

Creo que el ultimo texto de la carta es el nombre del remitente y, tal vez, el título (observa que en la segunda carta, cuarta linea desde abajo aparece una linea con dos símbolos, que tal vez sea el nombre corto del remitente y la primera palabra de la primera carta y de la segunda es una variante de los mismos signos, pues bien, esos dos símbolos están en la última línea).

otro enfoque

He hecho un cuadro con los diferentes signos y sus variantes (sujeto a modificación).

Por el número de simbolos que salen parece que es un cifrado monoalfabético sólo de las consonantes y las vocales son los símbolos de puntuación que hay encima y a los lados.

no creo que la suposición de tokamak, de que los símbolos son los escritos con trazo continuo, sea correcta

mañana haré las frecuencias.

https://skydrive.live.com/edit.aspx?sc=documents&resid=C1A49B2EC89DEB86!181&wd=cpe

Documento Sirtori

Adjunto una copia pasada a limpio y mi versión inicial del alfabeto.

https://skydrive.live.com/redir?resid=E8B78A4772C56628!139

Son 26 símbolos, pero tengo algunas vacilaciones. Adjunto también la transcripción y el primer intento de paso al latín por frecuencias. El resultado promete al principio, con muchos cuasi-anagramas: manes, turba, usque, ares... pero luego pierde fuerza y se me deshace. Mi latín es muy modesto. Trabajo con una aplicación desarrollada para Excel.

Quería aclarar que yo soy el responsable de la "internacionalización" del asunto, como menciona una entrada anterior. Comenté en el sitio de Nick Pelling convencido de que el espíritu que domina todo lo relacionado con la criptología es el de colaboración. No me gustaría que sintiérais esto como una competencia. Conocí a Nick el pasado mayo en Frascati, en el evento Voynich 100. Tiene un sitio sobre misterios criptográficos sin resolver y es una persona excelente y un gran experto en manuscritos. Tiene un libro escrito sobre el Voynich.

En fin, seguiré con interés el desarrollo de este interesante episodio y aportaré lo que pueda. Suerte y enhorabuena por el sitio. Es estupendo.

Eloy Caballero

http://areasubliminal.com/

Estoy de acuerdo: Es un trabajo fantástico

Un trabajo fantástico, Eloy, fundamental para quien intente romper este código.

Por otra parte, reavivas en mí el temor de que el texto esté en latín, porque en esa época, los trabajos de erudición usaban esa lengua que era, además, la Lingva Franca de la diplomacia. En ese caso me siento perdido, por mi profunda ignorancia sobre ella.

Sin embargo, creo que no has profundizado lo suficiente en la riqueza de los signos que sobrevuelan a los trazos que identificas, los llamados "churros". Aglunos son más largor que otros, unos son estrechos y compactos, como acentos o apóstrofos. Y luego hay puntos que a veces están sobre los caracteres, y a veces a la izquierda o a la derecha de estos. Por eso, en la transcripción, en vez de poner todos los caracteres latinos juntos, sería conveniente separarlos, juntando sólo aquellos que formen una unidad, como es el caso de los que lleven un modificador.

En cuanto a los trazos, no creo que hayas encontrado nada que desmienta la afirmación de Tokamak de que cada símbolo es un trazo continuo, más bien la sostienes, pues de lo contrario habrías descompuesto en "v"s sueltas esos grupitos que parecen formados por varias de ellas.

Por otra parte, no estoy de acuerdo con lo que afirmabas en otro mensaje anterior, de que se trate de una sustitución monoalfabética sin vocales. Si tenemos 26 símbolos convendrás en que son demasiados para representan sólo a las consonantes. Así que todo apunta a que codifican tanto vocales como consonantes. Pero luego tenemos el asunto de los modificadores, que hay por lo menos 5 (¿tantos como vocales? Salvo que estén puestos par despistar, habrá que suponer que el símbolo con su modificador es algo distinto al símbolo solo. Como hay varios simbolos que vienen afectados de modificadores, nos encontramos con una cantidad mayor de signos disponibles, bien para representar silabarios, bien para codificar un cifrado homofónico. La sustitución simple estaba más que superada por los criptógrafos de la época, cuando ya existía el Vigénere, aunque quizá pocos los conocieran.

Lo de los finales de las cartas y las firmas fue lo primero que vimos, pero no conseguimos encajarlo.

Por último, las cartas no pueden ser de 1600 si iban dirigidas a Felipe II, porque para esa fecha ya estaba muerto.

Te damos la bienvenida al club, con la recomendación de que leas todo lo que hemos posteado sobre el problema, que es algo más de lo que tu amigo Nick parece haber leído.

os envío dos enlaces

os envío dos enlaces uno a una hoja Excel con los códigos (todavía no definitivo y del que hablaré luego) y otro a un documento Word con el texto 1 sirtori con la codificación.

https://skydrive.live.com/edit.aspx?sc=documents&resid=C1A49B2EC89DEB86!183&wd=cpe
https://skydrive.live.com/?cid=c1a49b2ec89deb86&sc=documents#!/view.aspx?cid=C1A49B2EC89DEB86&resid=C1A49B2EC89DEB86%21185

Respecto a la codificación tengo mis dudas en lo del trazo continuo en algunos casos (el caso de las uves unidas y separadas, es el más significativo). Me parece excesivo que haya codigos con una v, con dos, con tres y con 4 (eloy) pues eso dificulta la codificación y va en contra de las enseñanzas de la caligrafía. La v también está implicada en el caso del código 2 de eloy (y en el 16 mío) tal vez sean dos códigos unidos, una raya inclinada y la v.

Si mis suposiciones son ciertas, estarían codificadas las consonantes y las tildes encima de los códigos indicarían vocales (?).

Lo que quería decir con remasterización

Cuando hablaba de remasterizar me refería a algo como la imagen que adjunto.
Pero lo primordial es ponernos de acuerdo en cuantos signos hay.
¿Sigo haciendo con el resto del texto lo que he hecho con la primera linea? Siempre admitiendo sugerencias y correcciones, por supuesto.

Imágenes: 

en mi opinión no es de mucha

en mi opinión no es de mucha utilidad crear las fuentes del texto, pero SÍ sería muy útil tener claras las grafías de los símbolos, pues no están muy claros. Por ejemplo, tus símbolos 4 y 6 (empezando por el final) no tengo claro si son el mismo o distintos (por el trazo parece que son distintos pero tengo dudas). La mayor dificultad está en los simbolos que contienen algo parecido a la v.

Cosas que pueden ayudar

Por ejemplo:

1. Establecer el alfabeto completo de signos que aparecen en el texto. En eso vamos bastante avanzados, a falta de las últimas transcripciones.

2. Hacer, para cada signo, una serie con los distintos modificadores que lleva, empezando por el sígno sin modificador, si existe.

3. De lo anterior se podría establecer cuántos modificadores se utilizan, o cuántas combinaciones de ellos

El meollo del problema es decidir -siempre con amplio margen de duda- si se trata de una escritura sin vocales -como ya se ha apuntado por parte de algún analista- , un poco al estilo árabe, de forma que las vocales se añadan mediante los modificadores. O si, por el contrario, también existen vocales como signos independientes, aunque en ocasiones los modificadores añadan letras para formar sílabas o abreviaturas.

Habiendo en torno a 26 símbolos básicos -que están en la base de la escritura- yo me inclinaría por la segunda opción, pero puedo estar equivocado. Creo que podríamos apostar a que la famosa firma corresponde a SIRTORI, tan sólo tenemos 5 símbolos, por lo que uno de ellos, seguramente el que lleva el churro, debe aportar 2 o 3 letras.

Os dejo, que ya me sale humo de la cabeza.

También se ha especulado sobre si los modificadores, o algunos de ellos, crearan algún tipo de desplazamiento sobre la letra-base

Precisamente es eso

El objetivo de crear las fuentes es precisamente tener claras las grafías de los símbolos y asegurarnos de que todos estamos viendo lo mismo. Los símbolos que mencionas son una claro ejemplo de que podemos estar viendo cosas distintas. Uno de ellos tiene un pequeño bucle que se dibuja por debajo del trazo horizontal mas largo. El otro tiene una curva inicial que queda por encima del trazo horizontal. Los considero distintos. Puede que haya algún caso ambiguo, tendría que comprobarlos todos. Es ahí precisamente donde entra el tener claras las fuentes (o abecedario remasterizado, como lo llamo yo)

Páginas

opinar

Texto puro

  • No se permiten etiquetas HTML.
  • Saltos automáticos de líneas y de párrafos.
By submitting this form, you accept the Mollom privacy policy.