Torsdagen den 18 december 2003Kontroll av språk Jag antar att detta är något som Håkan antingen har 30 färdiga svar på, eller också sätter igång att forska i ämnet.
Finns det formler för att kunna ta reda på vilket språk en text är skriven på bara genom att räkna antalet bokstäver?
Engelskan borde till exempel ha ett överskott av W (pga alla when, what, why, where, who osv) jämfört med genomsnittsspråket. Svenskan har sin motsvarighet i V (vad, vilken, vilka, varför, vem, var osv) men framförallt i Å, Ä och Ö. :)
Tyskan borde ha ett överskott av Ü. :)
Det vore intressant att använda ett program som räknar bokstäver och som sedan utifrån vissa satta gränsvärden kommer fram till vilket språk texten är skriven på, gränsvärden som efterhand blir bättre och bättre, precis som K9 blir bättre och bättre på att skilja ut spam från vanliga mail.
18:00 | Kommentarer (6) | TrackBack (0) Läs mer inom kategorin: Livet/Funderingar |
1. hakank.blogg: Håkan Kjellerstrand 2003-12-19 13:51
Kanske inte 30 färdiga svar, men några länkar i alla fall. Se http://www.hakank.org/webblogg/archives/000394.html . | 2. Klocklös i Tiden: Mats Andersson 2003-12-19 21:23
Tack! Jag kikar! | 3. David J 2003-12-21 07:24
Kan ju vara på sin plats att nämna att frekvensanalys av språk är ett viktigt moment inom kryptologin för att dechiffrera krypton. Det finns såklart många fler viktiga användingar inom informationsteknologi för sånt här. | 4. Klocklös i Tiden: Mats Andersson 2003-12-21 12:04
Okej, och vad gör du uppe så tidigt?? :) | 5. Månhus Beta: David Pettersson 2003-12-21 17:59
För några år sedan försökte jag göra ett program som skulle identifiera språk med just frekvensanalys av tecken. Fast jag stannade någonstans halvvägs. | 6. Klocklös i Tiden: Mats Andersson 2003-12-21 18:00
Det verkar med andra ord som om det inte bara är jag som tänkt i de här banorna. |
Kommentera
Klocklös i Tiden
|