Foros:
Por tokamak
Os propongo todo un reto a la altura de Kriptópolis.
Aquí tenéis publicado un proyecto fin de carrera de la Universidad Carlos III de Madrid. La autora, Sara Gómez Hernández, analizó en ese proyecto (pdf) diversos documentos históricos españoles, cifrados con el método de sustitución monoalfabética, utilizando para ello la herramienta Cryptool.
Lo más interesante del proyecto es El Documento Sirtori (p 84-93), un texto cifrado del siglo XVI, del que no se dispone del correspondiente texto en claro, ni de información contextual precisa.
La autora se decanta por considerarlo un cifrado de sustitución simple (p. 65), aunque no llega a descifrarlo, entre otras cosas por la considerable dificultad de interpretación que presentan los caracteres.
Creo que debería poderse descifrar, ya que se dispone de bastante texto, y sería un magnífico e histórico logro para Kriptópolis conseguir desvelar el contenido de un documento de hace cuatro siglos.
A ver qué os parece. Yo discrepo con la autora y, en principio, el texto me parece una cifra homofónica, quizá con un silabario, con cierto parecido con algunas contemporáneas.

¿Cómo lo veis?
¿Cómo lo veis?, aunque a primera vista pueda parecer intratable, yo creo que se puede romper. El primer paso consistiría en identificar correctamente todos los signos del texto, teniendo en cuenta que puede que tengan "inflexiones" como el silabario de La Cifra General (1556) en el que la sílaba DA es e- y la DO se representa por e+
Esta no es una tarea menor, precisamente, pero creo que entre todos será más factible.
El número de símbolos
De abuerdo, pues. Esperaremos tu asignación de carecteres.
Para un cifrado homofónico-silabario harían falta un centenar de símbolos, lo que está muy lejos de los 27 que detecta la autora. Esperamos tus noticias.
No tantos
Mira la cifra empleada por Don Juan Manuel (sí, el literato- y político - autor de la obra El Conde Lucanor tiene menos de la mitad del centenar de símbolos que dices.
En cuanto pueda subiré algo, es que es difícil decidir, como te imaginarás, que es simbolo y qué no.
Imágenes:
Mal momento
El Maligno infosniper les ha abducido a todos con sus brebajes ;)
Parece interesante
Parece interesante. Habrá que echarle un vistazo. A ver si termino de exponer lo de MIMIC... Aunque si en más de 4 siglos no se ha descifrado... mal asunto (no me olvido de TFTR, pero sigo sin sacar nada)
Que va, no se ha estado 4
Que va, no se ha estado 4 siglos intentando descifrarlo; es un documento, archivado, inútil, olvidado en el Archivo general de Simancas, al que se le presta atención ahora. Estoy seguro de que se puede atacar con éxito.
Lo que me extraña es que no saques nada en el ataque a TFTR, conociendo tu historial. LlamameX ya está preparando las catapultas y excavando el foso alrededor...
Ponganlo en la pagina
Pues lo primero es poner aca en el foro un archivo con la imagen escaneada del documento. Asi todos saben de que se habla y queda todo registrado para la posteridad en caso de que el link se muera.
Estan seguros de que es un texto en castellano?
En la introduccion del anexo (pagina 84) dice que Sertori es milanes, la autora del trabajo dice que las frecuencias no corresponden al castellano. Es razonable que el texto pueda estar en italiano o latin o cualquier otra lengua.
Castellano
Parece razonable pensar que el documento esté en castellano: la nota inicial del documento dice que el cifrario fue presentado a Felipe II, así que sería de uso en la cancillería. Por otra parte las frecuencias que obtengamos del texto dependerán de que caracteres identifiquemos como diferentes, problema no pequeño, y de si suponemos que es una cifra de sustitución simple o bien un cifrado homofónico, cosas que aún no sabemos.
En cuanto a lo de ponerlo en la página, no me parece necesario, es un enlace de la Universidad Carlos III, y no creo que caduque en cuatro días. Además, cualquiera puede descargarse el documento pdf.
La autora sugiere un cifrado de sustitución simple
Muy interesante, cuando lo ví ayer por primera vez me pareció solemne y me puse a leer el documento. Me parecen relevantes las observaciones de la autora y creo que se pueden citar aquí para mayor comodidad y accesibilidad:
Por mi parte, poco podré aportar -alguna recetilla de cocina, si acaso- aparte de admiración a raudales... pero quisiera animar a quienes si han probado capacidad sobrada para, al menos, iluminar un poco más nuestra propia historia, ¿es monoalfabético, silabario o una mixtura de ambos? ¿se puede responder con certidumbre razonable a esta pregunta? Saludos y muchas gracias.
La identificación de
La identificación de caracteres que realiza es bastante discutible, por eso se limita simplemente a sugerir el tipo de cifrado, que no llega a descriptar. Cuál es, en rigor, no lo sabemos.
Coincido
Coincido con Tokamak en que la identificación de caracteres no es convincente. Además -o en consecuencia- el trasteo que se hace con Cryptool es muy superficial, con lo que las consecuencias que se obtienen son dudosas.
Me parece un problema interesante que se podría abordar colectivamente en Kriptópolis. Lo primero sería conseguir -si es posible- una buena imagen del documento para poder establecer una buena asignación de caracteres a los símbolos. A partir de ahí creo que podríamos tener éxito, pero sin eso lo veo imposible.
Resolución
Bueno, no te creas, la resolución es bastante buena y bien contrastada, se distinguen perfectamente los caracteres, sobre todo si se amplia un poco, me parece que el problema está más bien en decidir que trazos identican cada signo, cuales son inflexiones de los mismos, si las comas puntos y acentos sirven para algo y cosas así. En cuanto pueda voy a subir una propuesta de identificación de algunos signos y discutir eso. Quizá se pueda empezar por ahí.
Bien
También sería bueno disponer de algunos textos, como el que aparece en el trabajo, para familiarizarnos con el idioma y la ortografía de la época, como el uso de la V como U, la doble R al principio de palabra, abreviaturas frecuentes, etc.
Tactilidad
Qué harto estoy de los móviles llamados "táctiles", que mandan los mensajes dos veces, o ninguna.
Mejor aún
Ah, pues esto es aún mejor, ya ni lo puedes cojer con dos deditos, siempre te sorprenderá con alguna iniciativa..
La chuleta
Sigo pensando que seria mejor poder leer bien la imagen de la página 82 -a mí me resulta ilegible-, donde figura la chuleta de la cifra. No estamos completamente seguros de cuál fue la cifra utilizada, pero yo creo que los corresponsales tendrían en su poder una hoja como ésa para cifrar y descifrar los documentos. Es verdad que parte de la información esta descrita en otros framentos, pero aun así.
No tiene que ver
Hola, la de la página 82 Es una cifra particular empleada en 1568 en la comunicación con el duque de Alba, en principio no tiene que ver con este caso.
Puedes ver muchas más aquí Es muy exhaustivo
Contactar con la autora
A lo mejor es buena idea contactar con la autora a ver si nos puede facilitar el escaneo original de esas páginas, a ser posible sin la compresion jpg tan alta o, puestos a pedir, con la resolucion más alta que tenga.
A partir de ahí y con unos sencillos retoques, podemos aumentar la legibilidad del documento lo suficiente como para trabajar con él.
Primer esbozo
Pues al final he conseguido dedicar un poco de tiempo a este problema. He analizado el texto, individualizando los signos de acuerdo a los siguientes criterios:
1- Son caracteres diferentes aquellos símbolos que estén unidos en el mismo trazo
2- No se toman como caracteres puntos, comas ni acentos
3- Se considera un carácter aquel trazo que pueda aparecer o no sobre otro símbolo
Con estos criterios he obtenido una lista de 27 símbolos bastante parecida a los de la autora para comprobar, una vez más, si puede tratarse de una cifra de sustitución, más abajo pongo la chuleta con el cuadro de caracteres junto a página y media del texto, con los símbolos alfabéticos sobre los del texto original.
Son 405 caracteres:
Con esta cantidad de texto, si fuese una cifra de sustitución tendríamos que poder detectar algún atisbo, al menos, del texto en claro. El algoritmo Jackobsen necesita un mínimo de 300 caracteres para obtener resultados fiables y sin embargo estamos por encima de ese mínimo y no me ha sido posible, ni con el Cryptool ni a mano, conseguir nada.
Esto es sólo una primera aproximación, ya que hay muchos puntos sin resolver. ¿qué significan las comas, si es que significan algo? hay secuencias de 3 seguidas, sumamente sospechosas. ¿Hay símbolos nulos?.
Creo que podría intentarse algún análisis más del texto para comprobar, de una vez por todas, si es una cifra de sustitución o no, antes de pasar a otra cosa.
A ver que os parece...
Imágenes:
Alucinante
Me parece el tuyo un trabajo alucinante que tomaré a pies juntillas, porque no me considero capaz de refutar -ni de verificar- ni una coma de lo que has puesto. A simple vista aparecen algunos digramas que bien podrían correspoder a un silabario, y eso representa una dificultad importante -añadida- porque a lo largo del trabajo de la Docotra se muestran varios silabarios distintos. Voy a trastear un poco a ver si veo algo más, aunque no me siento muy optimista al respecto.
Bueno, ahora que he terminado
Bueno, ahora que he terminado de explicar lo de MIMIC, a ver si me meto a otros retos. Me parece bien tu transliteración. Hay algunas cosas del texto original que me llaman la atención. La primera, la letra que has nombrado como "J", aparece muy a menudo con un trazo encima, muy alargado verticalmente. Quizá tenga algún significado especial. Hay varias letras que parecen la unión de letras "J" con algún recorte, como "P" (tres "J", la última recortada por la derecha), "S" (tres "J", la primera recortada por la izquierda, la última recortada por la derecha), "V" (dos "J", la primera recortada por la izquierda, la segunda por la derecha), "Y" (cuatro "J", la última recortada por la derecha). Al ser equivalentes a uniones de letras iguales, quizá tengan significados relacionados (aunque quizá los significados no tengan nada que ver, y la representación se hizo así por comodidad). En las uniones de las letras "J", suele haber con bastante frecuencia encima una especie de apóstrofe, que quizá también tenga algún significado. En algunas ocasiones se coloca un trazo mayor en lugar de un apóstrofe.
Los trazos verticales aparecen también en otros símbolos. Seguramente les cambien el significado.
También hay que tener en cuenta que los símbolos aparecen en grupos separados por espacios. Pienso que esta separación habría que tenerla en cuenta, porque seguramente separe grupos de símbolos que producen un determinado significado.
Trazos
¡Bienvenido al ataque, Sqrmatrix!. El trazo vertical sobre la "J" es lo que llamo "O", que puede ser un carácter antepuesto o pospuesto al símbolo sobre el que está. Hay otro signo parecido, pero más pequeño (trazos azules de la imagen adjunta), no obstante en principio decidí considerarlos el mismo carácter, razonando que una simple diferencia de altura de dos signos, por lo demás idénticos, quizá no fuese suficiente para distinguirlos correctamente en la comunicación escrita.
Las letras que parecen uniones de otras, como la "P", unión de tres "V" con unos trazos enigmáticos encima, la "Ñ" (dos "J"), la "S" (dos "V"), la W ("B" + "V") y la Y (tres "V"), considero con son caracteres diferentes porque están construidos de un solo trazo, y además todos los símbolos están cuidadosamente separados unos de otros, pero a saber.
También estoy de acuerdo en que hay que considerar esos agrupamientos de signos, junto a las comas y puntos.
Imágenes:
Gracias, me he limitado a
Gracias, me he limitado a efectuar una simple transliteración de los signos, pero seguro que no está bien. Algo no funciona, a ver si las comas están representando algo, o los puntos.
Imágenes:
Tribulaciones de un paleo-criptoanalista mindungui
Pues eso, que estoy bastante atribulado. Para empezar, veo una disonancia entre la asignación de símbolos a letras que haces en "Imágenes", donde no veo la Ñ ni la O, y el cifrado re-codificado, donde si aparecen. Puedo suponer que las has asignado, aunque no las has puesto en "Imágenes". Debo admitir, además, que no soy capaz de identificar, de una manera unívoca, el garabato asignado a la O ni a la Ñ.
Por otra parte, me parece muy arriesgado no considerar significativos los puntos ni las comas cuando aparecen solos. Y lo mismo pasa con los puntitos que aparecen junto a otros garabatos.
Tengo que insistir que para una cifra que utilizara homofonía y/o silabarios, debería haber más símbolos.
De todas formas he hecho un estudio comparativo entre las frecuencias de letras y digramas del texto Sertori -según tu codificación- y del Quijote, eliminando espacios. Voilà:
FRECUENCIA LETRAS QUIJOTE FRECUENCIA LETRAS SERTORI Nº Subcadena Frec. Rel % Frecuencia Nº Subcadena Frec F. rel % 1 E 14.0503 112289 1 O 83 20,49 2 A 12.3846 98977 2 E 34 8,40 3 O 9.8172 78458 3 L 33 8,15 4 S 7.5137 60049 4 H 29 7,16 5 N 6.5455 52311 5 M 22 5,43 6 R 6.1282 48976 6 N 21 5,19 7 L 5.5012 43965 7 G 18 4,44 8 I 5.4609 43643 8 Q 18 4,44 9 D 5.2557 42003 9 A 16 3,95 10 U 4.9430 39504 10 V 16 3,95 11 T 3.8345 30645 11 F 15 3,70 12 C 3.6054 28814 12 I 15 3,70 13 M 2.7564 22029 13 B 13 3,21 14 P 2.1556 17227 14 J 13 3,21 15 Q 2.0366 16276 15 Z 13 3,21 16 B 1.5028 12010 16 D 11 2,72 17 Y 1.4860 11876 17 P 7 1,73 18 H 1.1788 9421 18 T 7 1,73 19 V 1.0807 8637 19 U 7 1,73 20 G 1.0279 8215 20 X 3 0,74 21 J 0.5967 4769 21 C 2 0,49 22 F 0.4996 3993 22 S 2 0,49 23 Z 0.3944 3152 23 Ñ 2 0,49 24 Ñ 0.2241 1791 24 W 2 0,49 25 X 0.0201 161 25 Y 2 0,49 26 W 0.0001 1 26 R 1 0,25Puede observarse que los espectros de frecuencias de las letras no tienen semejanza alguna: Hay un símbolo, al que se le ha asignago la letra "O", que tiene una frecuencia destacada (20.49%) sobre las siguientes (8.40%, etc), que tampoco están escalonadas como en el texto ordinario. De manera que puede concluirse que, el texto Sertori no corresponde a una sustitución monoalfabética de un texto castellano, lo cual era de esperar, porque la cifra de la época estaba lo suficientemente avanzada como para no usar un método tan simple.
Para corroborar esta afirmación se pueden comparar las frecuencias de los digramas en ambos textos, y de nuevo se ve que no guardan relación: Aparece un grupo de di-gramas HO, VO, JO, BO, OL (todos involucran a la O), con frecuencias "demasiado" altas, entre 4.9% y 2.7%, mientras que el di-grama más frecuente en castellano, ES, tan solo tiene una frecuencia de 2.49% en el Quijote.
Esta sobre abundancia de determinados di-gramas apoyaría, a mi entender, la idea de que se usan silabarios. Evidentemente, puede haber otras sílabas con menor frecuencia, que también sean significativas.
En resumen:
1. Habría que revisar la asignación de caracteres a los símbolos, identificando los puntos y comas "libres", así como los puntos y otros grafismos que acompañan a determinados garabatos
2. El análisis debería contemplar la posibilidad de que hubiera más símbolos, para dar entrada a los silabarios. Si se usa la silaba HO (que a lo mejor corresponde a MA en la codificación original) para representar una palabra de un diccionario secreto ¿se usarían los mismos símbolos para la letra M y la letra A cuando van "sueltas"?
Tengo la impresión que la diferencia de época añade dificultades mayores de lo que nuestra petulancia podría admitir a priori
Sustitución simple
Muy bien, perfecto, pues ya está suficientemente claro que no es una sustitución simple, puede ser entonces un cifrado homofónico, por el momento sin silabario, como la cifra de Don Juan Manuel con el Marqués de Villena que puse más arriba. Eso supondría que hay que identificar algo más de 40 símbolos diferentes, que con la diferencia que pueden aportar las comas y puntos, creo que se puede alcanzar.
Por otra parte, la Ñ y la O de la transliteración no se veían por el tamaño de la imagen, hay otra tabla más pequeña encima, donde se ven.
Los dos últimos caracteres de la tercera fila en la primer página transliterada son la "Ñ" y la "O".
Imágenes:
Una cosa más
El condenado texto Sartori parece estar dividido en varios fragmentos distintos, con aparentes finales, firmas o lo que sea. Lo digo porque no sería extrño que se utilizaran diferentes alfabetos para cada uno de ellos. En cierta correspondencia se hace referencia a ciertos poderes diabólicos que han roto el cifrado a pesar de usar diferentes alfabetos. De todos modos, esto no debe preocuparnos por ahora. De momento nos has proporcionado algo a lo que hincarle el diente, que ya es mucho.
Sí, de Felipe II
Resulta que un matemático francés, François Viéte (1540-1603)descifró varias cartas de Felipe II dirigidas al duque de Alba y a don Juan de Austria y cuando Su católica Majestad se enteró de la pifia, se dirigió inmediatamente al Papa, acusando a los franceses de magia negra, pues de otra forma no se explicaba el asunto.
Claro que el Papa, como también venía descriptando los mensajes españoles gracias a Giovanni Batista Argenti, se descojonó del asunto, y públicamente además, para desprestigio de la diplomacia española.
Trigramas
Yo, a lo mío. En vista de que mi cansada vista no distingue un garabato de una cagada de mosca, he estado royendo un poco más de estadística. Al parecer tampoco los trigramas del texto y los del Quijote guardan semejanza. El más frecuente en castellano es más abundante que el más frecuente en el texto, y con los siguientes ocurre lo contrario. Pero es posible que estas diferencias sean debidas a la brevedad del texto cifrado, y a su temática especial, si la tiene.
Ya que tienes metida la
Ya que tienes metida la quinta, como no sé si el simbolito que etiqueto como "O" sigue o precede al caracter sobre el que se sitúa ¿como quedaría el análisis de bigramas y trigramas a si cada "O" la corremos una posición hacia atrás? HOM-->OHM
Vocabulario
Leyendo el trabajo veo que el vocabulario usado en la cifra general de Felipe II es de solo veintidós letras. Pasa lo mismo con el que usa Don Juan Manuel. Además, cada letra puede ser sustituida por más de un símbolo.
En la cifra general faltan las letras "j", "k", "ñ", "u" y "w".
Tal que así
Y tal que así
Total, que tampoco
Pues gracias, llegados a este punto yo creo que hace falta una nueva transliteración, de unos 40 símbolos, en vez de 27, y sacar la correspondencia homofónica que los relacione con un abecedario más reducido que el actual, como comentaba Lucilo.
Yo creo quee esta conclusión no la modifica el hecho de que en los alfabetos mencionados falten las letras "j", "k", "ñ", "u" y "w". La "w", la "k" y la "ñ" no alteran casi nada, sus frecuencias son muy bajas, en tanto que la "j" y la "u" sí que figuran en otras cifras, como la de Hernán Cortés que precisamente resulta sumamente similar a la que nos ocupa.
Letras ociosas
La V y a U son intercambiables en casi todos los textos de esa época, por lo que sólo haría falta una de ellas, la V. El sonido de la J lo cumple la X. La K y la W no aparecen prácticamente en los textos. La Ñ, que es poco frecuente, puede remplazarse por la N. De manera que tendríamos unos 22 símbolos necesarios para formar texto. Todos los demás que se detecten podrían usarse para la homofonía y el silabario.
Por cierto ¿cómo se distingue el papel de la M y la A cuando forman una palabra como MANO, del que tienen cuando representan la sílaba MA, que puede estar asoociada a alguna palabra del diccionario secreto? ¿Cómo podremos averiguar ese diccionario?
Dudas sobre la asignación
Estoy mirando el texto cifrado con tu asignación, lo que me parece una magnífica herramiena para empezar a roer este hueso incorrupto, y estoy viendo puntitos y comitas que unas veces están y otras no, pero no sé si pueden tener signifiado o tan solo es culpa de la mala calidad de la imagen o de mi vista defectuosa.
Por ejemplo, tomemos la A del garabato 1. Se observa un puntito a la derecha. En cambio, en la A del garabato nº 45 ese puntito no aparece.
Igualmene, la L del garabato nº 27 no tiene ninguna coma a la derecha, siendo seguida por el garabato de la I. Pero en cambio, la L nº 46, así como la 51, vienen acompañadas de sendas comas.
Por otra parte, lo que hay junto a la L nº83 parece un punto, mientras que a la L nº 92 parecen seguirle una coma y un punto.
No me extiendo más, pero estoy seguro de que podremos encontrarnos con muchas más anomalías de esta clase. Por favos, échales un vistazo, a ver qué se te ocurre, que yo estoy más seco que la piedra pómez. Quizá leyendo más sobre la cifra de esa época podamos darle algo de luz a este asunto.
Firma
Supongo que esto ya es obvio para todos, pero ¿os habéis fijado en las firmas?
Obviamente son dos documentos distintos, con unos textos colocados al final justo donde irían el remitente y su firma. Es más, los dos textos tienen la misma "palabra" al final. Puede ser un nombre o una frase final en plan "Dios salve al rey".
Otro detalle
En la línea cuarta de ambos documentos se repite el mismo conjunto de cuatro símbolos prácticamente en la misma posición.
Yo no sé tanto de matemáticas, así que busco patrones por otro lado.
un saludo.
Sobre las marcas sobre símbolos
Si se eliminan los símbolos que tienen encima la marca grande (esa especie de arco), la quinta línea de ambos documentos se parece mucho, excepto por un par de símbolos...
Quizás la cuarta y quinta línea sea algún tipo de fórmula formal.
Buenas observaciones
Para atacar una cifra de hace 4 siglos no basta con las matemáticas. Lo que pasa es que yo no veo tanta semejanza en las firmas. En realidad cuando miro los garabatos no veo nada.
Por firma me refiero
Por firma me refiero a la última "palabra" de abajo a la izquierda.
Los śimbolos con un arco encima son muchos más abundantes en relación en el texto largo que en el corto. No he hecho la prueba, pero tengo la impresión de que si se eliminan los símbolos con un arco encima va a haber una correlación mucho mayor.
También, parece que empiezan prácticamente con los mismos símbolos, además un poco separado de lo siguiente. Podría ser un "Para".
La semejanza de las lineas 4 y 5 en ambos documentos me hace pensar en algún tipo de fórmula formal de dirigirse al destinatario. O quizás al revés, puede ser el título o similar del remitente. No se suficiente de estos temas.
La firma
Lo de "la firma", que es idéntica en la primera y en la última página del documento, es algo a lo que ya le estuve dando vueltas. Quizá sea una fórmula común, como la fecha, el cargo o cosas así. Si identificásemos esta sentencia ello constituiría un avance importantísimo para resolver este criptograma.
También necesitaríamos un texto extenso del XVI con su grafía original (con sus uves y equis) como referencia para la investigación de frecuencias. Me pongo a ello.
¡Ánimo!
Creo que vais por buen camino. Sin Champollion, la Piedra Rosetta no hubiera servido más que como pisapapeles, grande, eso sí. Estoy ansioso por disponer de otro conjunto de caracteres para procesar.
Buscando textos
Aqui mesmo trobaredes un estvudio acerca de uiellas composiciones de Morales y Oliva, do podréis hallar abundantes y conuenientes uocablos y formas uerbales anta(ñ)o frequentes y hoga(ñ)o ausentes.
En el texto, (ñ) viene reemplazada por el dígrafo "fl", lo que me parece una bizarra transcripción.
Seguimos buscando.
Mucho mejor
Yo creo que están mejor estos, y hay muchísimos: uno otro y otro más
Lo que pasa es que todos estos documentos se transliteran, creo, sin tener en cuenta la ambivalencia U V, J, X. también está el problema de la Ç que unas veces será Z y otras S
¡¡Lo encontré!!
Es una carta a Felipe II y extensísima, y donde se repeta la ambivalencia V U, se emplean indistintamente -porque realmente se usaban ambos signos ojo, otra cosa es lo que se hiciera cara al cifrado - ¡Es perfecto!: mamotreto
Pues ya no busco más
Estaba rastreando artículos sobre la evolución del castellando desde la normativa de Nebrija (antes era un caos), con los cambios en los siglos siguientes, donde aún subsiste cierto caos. Pero con el mamotreto ya no es necesario. Con tu permiso me voy a poner a hacer el correspondiente estudio estadístico, a saber:
1. Frecuencia de las letras
2. Dígramas y trigramas. Aquí tengo una duda, porque una cosa son los n-gramas verdaderos, es decir, dentro de las palabras, y otra los que surgen al juntar todas las palabras sin espacios, que es como al parecer están escritos los textos cifrados ¿o tal vez no?
3. Léxico. Para un posible ataque a texo plano
No sé si petará mi pobre ordenador.
P.S.
Un par de cosas. Imagino que en los textos cifrado tendrían necesidad de utilizar números de vez en cuando. Me inclino a pensar que en vez de añadir símbolos numéricos al alfabeto, los representarían mediante palabras o con numeración romana. También creo interesante catalogar las siglas utilizadas. Ya veremos lo que tardo en roer todo este embrollo.
Otro símbolo: Hay que tener en cuenta la cedilla "Ç". No sé si en los cifrados la sustituirían por otra cosa, como tampoco sabemos cómo representarían la "Ñ"
Aquí está todo, texto y frecuencias
Carta normalizada
Frecuencias monogramas, bigramas y trigramas
Y aquí están las frecuencias de monogramas, bigramas y trigramas con 22 caracteres, refundiendo (U-V) (C-Ç) (I-Y) (X-J)
Con esto tiene que estar chupao...
Fiables
De las letras más frecuentes serán fiables las de E A O N (salvo las pocas Ñ acumuladas) D M y T, entre otras.
Frecuencia de letras en el Mamotreto
Yo diría que no se diferencia gran cosa de la estadística del Quijote o de un texto contemporáneo -salvo, quizá, en la mayor abundancia de las "X" que compensa una menor frecuencia de las "J", y en la presencia de la "Ç"-. En todo caso, probablemente se diferenciará más de textos "especiales", como pueden ser los propios cifrados.
Obsérvese el virtual empate entre la "E" y la "A", lo que nos ratifica en descartar la sustitución simple del texto Sertori a falta, eso sí, de revisar la asignación de símbolos a letras -o a caracteres alfanuméricos, eventualmente-.
Páginas
opinar