URL Decoder
Viele Browser benutzen Url Encoding für Sonderzeichen. Dabei werden die Zeichen mit vorangestelltem Prozent in ihr Unicode Äquivalent umgewandelt (nicht zu verwechseln mit HTML Entities mit &). Das hin und her verschiedener Codierverfahren führt dazu, dass die seltsamen Codefragmente weit verbreitet sind: in Linklisten, Foren, Datenbanken usw. Die Gründe sind vielfältig. Mit dem Decoder lässt sich das Geschehen untersuchen.
Encode | Beispiel: | |
Eingabe | ||
escape | ||
encodeURI | ||
encodeURIComponent | ||
encodeHTML |
Eingabe | |
Htmldecode |
-
|
unescape+Htmldecode |
-
|
decodeURI+Htmldecode |
-
|
decodeURIComponent+H. |
-
|
Beispiel: Umlaute
Man betätige oben den Umlaute Button und dann in der Zeile encodeURI den decode Button. Das Ergebnis sind Sonderzeichen, die man vor allem in Forenarchiven oft sieht (pikanterweise sogar in Foren die Tipps zur korrekten Zeichenkodierung geben). Der Grund ist, dass die alte Escape Codierung Probleme bereitet und stattdessen die neuere Funktion encodeURI Verwendung findet. Bei der Decodierung ist jedoch escape immer noch der Standard. Lösungsmöglichkeit: keine. Man sieht es z. Bsp. der Zeichenfolge %26 nicht an, ob und welche Codierung angewendet wurde.
Alternativ kann man bei Verwendung einer Datenbank den passenden Zeichensatz einstellen. www.alphadevx.com/a/420-Converting-a-MySQL-database-from-latin1-to-utf8 . Damit entfaellt zumindest an einer Stelle die Unklarheit welche Codierung verwendet wurde. (Am Rande sei noch auf das Problem des Speicherplatzes hingewiesen, wenn bei der Codierung eines einzigen Umlauts bis zu 10 Zeichen benötigt werden, bläht das eine Zeichenfolge u.U. deutlich auf).
Beispiel: Sonderzeichen in Seitenaufrufen
1 <a href="test.php?x=1&y=2"> ...
2 <a href="test.php?x=1&y=2"> ...
Welche Variante ist die richtige? Auflösung Test: (Wie Sie sehen, sehen Sie nichts...)
Zum Abschluss ein Test mit Url-Encoding (Fazit: es ist kompliziert)
Links zu dem Thema: de.selfhtml.org/javascript/objekte wiki.selfhtml.org/wiki/Glossar:URL-Codierung
Beispiel: manipulierte Links
Malware-Links werden oft so gestaltet, dass in ihnen scheinbar vertrauenswürdige Domainnamen auftauchen. Schwerer zu erkennen sund Manipulationen mit fremden Zeichensätzen. So wird aus dem vertrauenswürdigen gmx.de ein vom Original kaum zu unterscheidendes gmх.de oder aus postbank.de wird рostbank.de. Sieht genauso aus, aber das "х" im zweiten gmх ist ein kyrillisches Ha bzw. "ch" und das zweite "р" in рostbank ist ein kyrillisches "r".
Quelle: www.iron-city.de/index.php/konzept/85-umgang-mit-emails
weitere Beispiele:
%26Auml%3Bgypten
http://de.wikipedia.org/wiki/Gro%C3%9Fer_Sprung_nach_vorn
http://www.facebook.com/#!/pages/Gef%C3%A4llt-mir-aus-Mitleid
http://www.%66b%69.%67o%76
%u06AF%u06CC%u0631%20%u0633%u0647%20%u067E%u06CC%u0686
%DA%AF%DB%8C
Links
de.wiktionary.org/wiki/Hilfe:Sonderzeichen/Tabelle
utf8-chartable.de/unicode-utf8-table.pl