00001
00002
00003
00004
00005
00006
00007
00008
00009
00010
00011
00012
00013
00014
00015 #include <stdlib.h>
00016 #include <string.h>
00017 #include "antiword.h"
00018
00019 struct interval {
00020 USHORT first;
00021 USHORT last;
00022 };
00023
00024 static const struct interval combining[] = {
00025 { 0x0300, 0x034E }, { 0x0360, 0x0362 }, { 0x0483, 0x0486 },
00026 { 0x0488, 0x0489 }, { 0x0591, 0x05A1 }, { 0x05A3, 0x05B9 },
00027 { 0x05BB, 0x05BD }, { 0x05BF, 0x05BF }, { 0x05C1, 0x05C2 },
00028 { 0x05C4, 0x05C4 }, { 0x064B, 0x0655 }, { 0x0670, 0x0670 },
00029 { 0x06D6, 0x06E4 }, { 0x06E7, 0x06E8 }, { 0x06EA, 0x06ED },
00030 { 0x070F, 0x070F }, { 0x0711, 0x0711 }, { 0x0730, 0x074A },
00031 { 0x07A6, 0x07B0 }, { 0x0901, 0x0902 }, { 0x093C, 0x093C },
00032 { 0x0941, 0x0948 }, { 0x094D, 0x094D }, { 0x0951, 0x0954 },
00033 { 0x0962, 0x0963 }, { 0x0981, 0x0981 }, { 0x09BC, 0x09BC },
00034 { 0x09C1, 0x09C4 }, { 0x09CD, 0x09CD }, { 0x09E2, 0x09E3 },
00035 { 0x0A02, 0x0A02 }, { 0x0A3C, 0x0A3C }, { 0x0A41, 0x0A42 },
00036 { 0x0A47, 0x0A48 }, { 0x0A4B, 0x0A4D }, { 0x0A70, 0x0A71 },
00037 { 0x0A81, 0x0A82 }, { 0x0ABC, 0x0ABC }, { 0x0AC1, 0x0AC5 },
00038 { 0x0AC7, 0x0AC8 }, { 0x0ACD, 0x0ACD }, { 0x0B01, 0x0B01 },
00039 { 0x0B3C, 0x0B3C }, { 0x0B3F, 0x0B3F }, { 0x0B41, 0x0B43 },
00040 { 0x0B4D, 0x0B4D }, { 0x0B56, 0x0B56 }, { 0x0B82, 0x0B82 },
00041 { 0x0BC0, 0x0BC0 }, { 0x0BCD, 0x0BCD }, { 0x0C3E, 0x0C40 },
00042 { 0x0C46, 0x0C48 }, { 0x0C4A, 0x0C4D }, { 0x0C55, 0x0C56 },
00043 { 0x0CBF, 0x0CBF }, { 0x0CC6, 0x0CC6 }, { 0x0CCC, 0x0CCD },
00044 { 0x0D41, 0x0D43 }, { 0x0D4D, 0x0D4D }, { 0x0DCA, 0x0DCA },
00045 { 0x0DD2, 0x0DD4 }, { 0x0DD6, 0x0DD6 }, { 0x0E31, 0x0E31 },
00046 { 0x0E34, 0x0E3A }, { 0x0E47, 0x0E4E }, { 0x0EB1, 0x0EB1 },
00047 { 0x0EB4, 0x0EB9 }, { 0x0EBB, 0x0EBC }, { 0x0EC8, 0x0ECD },
00048 { 0x0F18, 0x0F19 }, { 0x0F35, 0x0F35 }, { 0x0F37, 0x0F37 },
00049 { 0x0F39, 0x0F39 }, { 0x0F71, 0x0F7E }, { 0x0F80, 0x0F84 },
00050 { 0x0F86, 0x0F87 }, { 0x0F90, 0x0F97 }, { 0x0F99, 0x0FBC },
00051 { 0x0FC6, 0x0FC6 }, { 0x102D, 0x1030 }, { 0x1032, 0x1032 },
00052 { 0x1036, 0x1037 }, { 0x1039, 0x1039 }, { 0x1058, 0x1059 },
00053 { 0x1160, 0x11FF }, { 0x17B7, 0x17BD }, { 0x17C6, 0x17C6 },
00054 { 0x17C9, 0x17D3 }, { 0x180B, 0x180E }, { 0x18A9, 0x18A9 },
00055 { 0x200B, 0x200F }, { 0x202A, 0x202E }, { 0x206A, 0x206F },
00056 { 0x20D0, 0x20E3 }, { 0x302A, 0x302F }, { 0x3099, 0x309A },
00057 { 0xFB1E, 0xFB1E }, { 0xFE20, 0xFE23 }, { 0xFEFF, 0xFEFF },
00058 { 0xFFF9, 0xFFFB }
00059 };
00060
00061
00062 static BOOL
00063 bIsZeroWidthChar(ULONG ucs)
00064 {
00065 int low = 0;
00066 int high = elementsof(combining) - 1;
00067 int mid;
00068
00069 if (ucs < (ULONG)combining[low].first ||
00070 ucs > (ULONG)combining[high].last) {
00071 return FALSE;
00072 }
00073
00074 while (high >= low) {
00075 mid = (low + high) / 2;
00076 if (ucs > (ULONG)combining[mid].last) {
00077 low = mid + 1;
00078 } else if (ucs < (ULONG)combining[mid].first) {
00079 high = mid - 1;
00080 } else {
00081 return TRUE;
00082 }
00083 }
00084 return FALSE;
00085 }
00086
00087
00088
00089
00090
00091
00092
00093
00094
00095
00096
00097
00098
00099
00100
00101
00102
00103
00104
00105
00106
00107
00108
00109
00110
00111
00112
00113
00114
00115
00116
00117
00118 static int
00119 iWcWidth(ULONG ucs)
00120 {
00121
00122 if (ucs == 0) {
00123 return 0;
00124 }
00125 if (ucs < 0x20 || (ucs >= 0x7f && ucs < 0xa0)) {
00126 NO_DBG_HEX(ucs);
00127 return -1;
00128 }
00129
00130
00131 if (bIsZeroWidthChar(ucs)) {
00132 return 0;
00133 }
00134
00135
00136
00137 return 1 +
00138 (ucs >= 0x1100 &&
00139 (ucs <= 0x115f ||
00140 (ucs >= 0x2e80 && ucs <= 0xa4cf && (ucs & ~0x0011) != 0x300a &&
00141 ucs != 0x303f) ||
00142 (ucs >= 0xac00 && ucs <= 0xd7a3) ||
00143 (ucs >= 0xf900 && ucs <= 0xfaff) ||
00144 (ucs >= 0xfe30 && ucs <= 0xfe6f) ||
00145 (ucs >= 0xff00 && ucs <= 0xff5f) ||
00146 (ucs >= 0xffe0 && ucs <= 0xffe6) ||
00147 (ucs >= 0x20000 && ucs <= 0x2ffff)));
00148 }
00149
00150
00151
00152
00153
00154
00155
00156 static ULONG
00157 utf8_to_ucs(const char *p, int iStrLen, int *piUtfLen)
00158 {
00159 ULONG ulUcs;
00160 int iIndex, iCharLen;
00161
00162 fail(p == NULL || piUtfLen == NULL);
00163 fail(iStrLen < 1);
00164
00165 ulUcs = (ULONG)(UCHAR)p[0];
00166
00167 if (ulUcs < 0x80) {
00168 *piUtfLen = 1;
00169 return ulUcs;
00170 }
00171
00172 if (ulUcs < 0xe0){
00173 iCharLen = 2;
00174 ulUcs &= 0x1f;
00175 } else if (ulUcs < 0xf0){
00176 iCharLen = 3;
00177 ulUcs &= 0x0f;
00178 } else if (ulUcs < 0xf8){
00179 iCharLen = 4;
00180 ulUcs &= 0x07;
00181 } else if (ulUcs < 0xfc){
00182 iCharLen = 5;
00183 ulUcs &= 0x03;
00184 } else {
00185 iCharLen = 6;
00186 ulUcs &= 0x01;
00187 }
00188 for (iIndex = 1; iIndex < iCharLen; iIndex++) {
00189 ulUcs <<= 6;
00190 if (iIndex < iStrLen) {
00191 ulUcs |= (ULONG)(UCHAR)p[iIndex] & 0x3f;
00192 }
00193 }
00194 *piUtfLen = iCharLen;
00195 return ulUcs;
00196 }
00197
00198
00199
00200
00201
00202
00203 long
00204 utf8_strwidth(const char *pcString, size_t tNumchars)
00205 {
00206 ULONG ulUcs;
00207 long lTotal;
00208 int iToGo, iWidth, iUtflen;
00209
00210 fail(pcString == NULL || tNumchars > (size_t)INT_MAX);
00211
00212 lTotal = 0;
00213 iToGo = (int)tNumchars;
00214
00215 while (iToGo > 0 && *pcString != '\0') {
00216 ulUcs = utf8_to_ucs(pcString, iToGo, &iUtflen);
00217 iWidth = iWcWidth(ulUcs);
00218 if (iWidth > 0) {
00219 lTotal += iWidth;
00220 }
00221 pcString += iUtflen;
00222 iToGo -= iUtflen;
00223 }
00224 NO_DBG_DEC(lTotal);
00225 return lTotal;
00226 }
00227
00228
00229
00230
00231
00232
00233 int
00234 utf8_chrlength(const char *p)
00235 {
00236 int iUtflen;
00237
00238 fail(p == NULL);
00239
00240 iUtflen = -1;
00241 (void)utf8_to_ucs(p, INT_MAX, &iUtflen);
00242 NO_DBG_DEC(iUtflen);
00243 return iUtflen;
00244 }
00245
00246
00247
00248
00249 BOOL
00250 is_locale_utf8(void)
00251 {
00252 char szCodeset[20];
00253
00254 szCodeset[0] = '\0';
00255 if (!bGetNormalizedCodeset(szCodeset, sizeof(szCodeset), NULL)) {
00256 return FALSE;
00257 }
00258 DBG_MSG(szCodeset);
00259 return STREQ(szCodeset, "utf8");
00260 }