Suite

Comment déterminez-vous le jeu de caractères d'un fichier de formes ?


Existe-t-il un moyen de déterminer le jeu de caractères utilisé pour un fichier de formes donné ?


Essai et erreur. Essayez d'ouvrir le fichier .dbf avec Ms Excel ou avec OpenOffice en utilisant des paramètres différents jusqu'à ce que tout soit correct.

Regardez ce post pour plus d'indices : https://stackoverflow.com/questions/319095/how-do-i-determine-the-character-set-of-a-string


Il existe deux manières pour les programmes de déterminer le jeu de caractères d'un fichier de formes.

  • Le premier est le fichier de page de codes *.cpg.
  • La seconde est l'information de la page de code, qui peut être à l'intérieur du fichier dbase. La spécification peut être trouvée sur http://www.clicketyclick.dk/databases/xbase/format/dbf.html#DBF_STRUCT

LefichierL'utilitaire est capable de deviner l'encodage d'un fichier texte. Utilisationogr2ogrpour une conversion qui préserve l'encodage d'origine si il n'y a pas.cpgfichier:

ogr2ogr -f fichier CSV.csv fichier.dbf fichier fichier.csv

Exemple de sortie :

fichier.csv : texte ISO-8859

Je l'ai testé avec deux des encodages les plus fréquents, UTF-8 et latin1. Fonctionne immédiatement dans Ubuntu, je ne suis pas sûr de l'OS X. Je ne connais pasfichierutilitaire sous Windows.

REMARQUE: Dès qu'il y a un correspondant.cpgfichier qui indique l'encodage,ogr2ogrl'honorera et la sortie sera en UTF-8. Mais si la sortie CSV semble correcte, vous savez que les informations dans le.cpgle fichier est exact.


Une autre table pour convertir le 29e octet de *.dbf en page de code : http://webhelp.esri.com/arcpad/8.0/referenceguide/index.htm#locales/task_code.htm