00001
00002
00003
00004
00005
00006 #ifndef UT_STRING_CLASS_H
00007 #define UT_STRING_CLASS_H
00008
00009
00010
00011
00012
00013
00014
00015
00016
00017
00018
00019
00020
00021
00022
00023
00024
00025
00026
00027
00028
00029
00030 #include <stdlib.h>
00031 #include <stdarg.h>
00032
00033 #if defined(__MINGW32__)
00034 # undef snprintf
00035 # if __GNUC__ <= 3
00036 # define _GLIBCXX_USE_C99_DYNAMIC 1
00037 # endif
00038 #endif
00039
00040 #include <string>
00041
00042
00043
00044
00045
00046 #ifndef UT_TYPES_H
00047 #include "ut_types.h"
00048 #endif
00049 #include "ut_string.h"
00050 #include "ut_stringbuf.h"
00051 #include "ut_bytebuf.h"
00052
00053
00054 class UT_UCS4_mbtowc;
00055 class UT_String;
00056 class UT_UTF8String;
00057 class UT_UCS4String;
00058
00059
00060
00061
00063
00064
00065
00066
00067
00068
00070
00072
00073
00074 class ABI_EXPORT UT_String
00075 {
00076 public:
00077 UT_String();
00078 UT_String(const char* sz, size_t n = 0 );
00079 UT_String(const UT_String& rhs);
00080 UT_String(const std::basic_string<char> &s);
00081 ~UT_String();
00082
00083 size_t size() const;
00084 size_t length () const { return size () ; }
00085 void reserve(size_t n);
00086 bool empty() const;
00087 void clear() const;
00088
00089 UT_String substr(size_t iStart, size_t nChars) const;
00090
00091 UT_String& operator=(const UT_String& rhs);
00092 UT_String& operator=(const char* rhs);
00093 UT_String& operator=(const std::basic_string<char> & rhs);
00094 UT_String& operator+=(const UT_String& rhs);
00095 UT_String& operator+=(const char* rhs);
00096 UT_String& operator+=(char rhs);
00097
00098 char operator[](size_t iPos) const;
00099 char& operator[](size_t iPos);
00100
00101 void swap(UT_String& rhs);
00102
00103
00104
00105
00106 const char* c_str() const;
00107
00108 private:
00109 class UT_StringImpl<char>* pimpl;
00110 };
00111
00112
00113 ABI_EXPORT bool operator==(const UT_String& s1, const UT_String& s2);
00114 ABI_EXPORT bool operator==(const UT_String& s1, const char* s2);
00115 ABI_EXPORT bool operator==(const char* s1, const UT_String& s2);
00116 ABI_EXPORT bool operator!=(const UT_String& s1, const UT_String& s2);
00117 ABI_EXPORT bool operator!=(const UT_String& s1, const char* s2);
00118 ABI_EXPORT bool operator!=(const char* s1, const UT_String& s2);
00119
00120 ABI_EXPORT UT_uint32 hashcode(const UT_String& string);
00121 ABI_EXPORT UT_uint32 hashcode(const char *s);
00122
00123
00124 ABI_EXPORT bool operator<(const UT_String& s1, const UT_String& s2);
00125
00126 ABI_EXPORT UT_String operator+(const UT_String& s1, const UT_String& s2);
00127
00128 ABI_EXPORT size_t UT_String_findCh(const UT_String &st, char ch);
00129 ABI_EXPORT size_t UT_String_findRCh(const UT_String &st, char ch);
00130
00131
00132
00137 ABI_EXPORT UT_String& UT_String_sprintf(UT_String & inStr, const char * inFormat, ...) ABI_PRINTF_FORMAT(2,3);
00138 ABI_EXPORT UT_String& UT_String_vprintf (UT_String & inStr, const char *format,
00139 va_list args1)
00140 ABI_PRINTF_FORMAT(2,0);
00141 ABI_EXPORT UT_String& UT_String_vprintf (UT_String & inStr, const UT_String & format,
00142 va_list args1);
00143
00148 ABI_EXPORT UT_String UT_String_sprintf(const char * inFormat, ...)
00149 ABI_PRINTF_FORMAT(1,2);
00150 ABI_EXPORT UT_String UT_String_vprintf(const char * inFormat, va_list args1)
00151 ABI_PRINTF_FORMAT(1,0);
00152 ABI_EXPORT UT_String UT_String_vprintf(const UT_String & inFormat, va_list args1);
00153
00154
00155
00156
00161 ABI_EXPORT UT_String UT_String_getPropVal(const UT_String & sPropertyString, const UT_String & sProp);
00162 ABI_EXPORT void UT_String_removeProperty(UT_String & sPropertyString, const UT_String & sProp);
00163 ABI_EXPORT void UT_String_setProperty(UT_String & sPropertyString, const UT_String &sProp, const UT_String & sVal);
00164 ABI_EXPORT void UT_String_addPropertyString(UT_String & sPropertyString, const UT_String & sNewProp);
00165
00167
00168
00169
00171
00173
00174
00175
00176 class ABI_EXPORT UT_UTF8String
00177 {
00178 public:
00179 UT_UTF8String ();
00180 UT_UTF8String (const char * sz, size_t n = 0 );
00181 UT_UTF8String (const char *sz, const char *encoding);
00182
00183 UT_UTF8String (const UT_UTF8String & rhs);
00184 UT_UTF8String (const UT_UCS4String & rhs);
00185 UT_UTF8String (const UT_UCSChar * sz, size_t n = 0 );
00186
00187 ~UT_UTF8String ();
00188
00189 size_t size () const;
00190 size_t length () const { return size () ; }
00191
00192 void reserve(size_t n);
00193 bool empty () const;
00194 void clear () const;
00195 size_t byteLength() const;
00196 void dump(void) const;
00197 UT_UTF8String substr(size_t iStart, size_t nChars) const;
00198
00199 UT_UTF8String & operator=(const char * rhs);
00200 UT_UTF8String & operator=(const std::string & rhs);
00201 UT_UTF8String & operator=(const UT_UTF8String & rhs);
00202 UT_UTF8String & operator=(const UT_UCS4String & rhs);
00203
00204 UT_UTF8String & operator+=(const UT_UCS4Char rhs);
00205 UT_UTF8String & operator+=(const char * rhs);
00206 UT_UTF8String & operator+=(const std::string & rhs);
00207 UT_UTF8String & operator+=(const UT_UTF8String & rhs);
00208 UT_UTF8String & operator+=(const UT_UCS4String & rhs);
00209
00210
00211
00212
00213 const char * utf8_str () const;
00214 UT_UCS4String ucs4_str ();
00215
00216 void assign (const char * sz, size_t n = 0 );
00217 void append (const char * sz, size_t n = 0 );
00218 void appendBuf(const UT_ConstByteBufPtr & buf, UT_UCS4_mbtowc & converter);
00219
00220 void appendUCS4 (const UT_UCS4Char * sz, size_t n = 0 );
00221 void appendUCS2 (const UT_UCS2Char * sz, size_t n = 0 );
00222
00223 const UT_UTF8String & escape (const UT_UTF8String & str1,
00224 const UT_UTF8String & str2);
00225 const UT_UTF8String & escapeXML ();
00226 const UT_UTF8String & decodeXML ();
00227 const UT_UTF8String & escapeMIME ();
00228 const UT_UTF8String & escapeURL ();
00229 const UT_UTF8String & decodeURL ();
00230
00231
00232
00233
00234
00235
00236
00237
00238
00239
00240
00241
00242
00243
00244
00245
00246
00247
00248
00249
00250
00251
00252
00253
00254
00255
00256
00257
00258
00259
00260
00261
00262
00263
00264
00265
00266
00267 UT_UTF8Stringbuf::UTF8Iterator getIterator () const
00268 {
00269 return UT_UTF8Stringbuf::UTF8Iterator(pimpl);
00270 }
00271
00272 private:
00273 class UT_UTF8Stringbuf * pimpl;
00274 };
00275
00276 ABI_EXPORT bool operator<(const UT_UTF8String& s1, const UT_UTF8String& s2);
00277 ABI_EXPORT bool operator==(const UT_UTF8String& s1, const UT_UTF8String& s2);
00278 ABI_EXPORT bool operator!=(const UT_UTF8String& s1, const UT_UTF8String& s2);
00279 ABI_EXPORT bool operator==(const UT_UTF8String& s1, const char * s2);
00280 ABI_EXPORT bool operator!=(const UT_UTF8String& s1, const char * s2);
00281 ABI_EXPORT bool operator==(const UT_UTF8String& s1, const std::string & s2);
00282 ABI_EXPORT bool operator!=(const UT_UTF8String& s1, const std::string & s2);
00283 ABI_EXPORT bool operator==(const std::string & s2, const UT_UTF8String& s1);
00284 ABI_EXPORT bool operator!=(const std::string & s2, const UT_UTF8String& s1);
00285 ABI_EXPORT UT_UTF8String operator+(const UT_UTF8String & s1, const UT_UTF8String & s2);
00286 ABI_EXPORT UT_UTF8String UT_UTF8String_sprintf(const char * inFormat, ...);
00287 ABI_EXPORT UT_UTF8String & UT_UTF8String_sprintf(UT_UTF8String & inStr, const char * inFormat, ...);
00288
00289
00290
00295 ABI_EXPORT UT_UTF8String UT_UTF8String_getPropVal(const UT_UTF8String & sPropertyString, const UT_UTF8String & sProp);
00296
00297 ABI_EXPORT void UT_UTF8String_removeProperty(UT_UTF8String & sPropertyString, const UT_UTF8String & sProp);
00298
00299 ABI_EXPORT void UT_UTF8String_setProperty(UT_UTF8String & sPropertyString, const UT_UTF8String &sProp, const UT_UTF8String & sVal);
00300
00301 ABI_EXPORT void UT_UTF8String_addPropertyString(UT_UTF8String & sPropertyString, const UT_UTF8String & sNewProp);
00302
00303 ABI_EXPORT void UT_UTF8String_replaceString(UT_UTF8String & sString, const UT_UTF8String & sOldValue,const UT_UTF8String & sNewValue );
00304
00306
00307
00308
00309
00310
00311
00312
00313
00314
00316
00318
00319
00320
00321
00322
00323 class ABI_EXPORT UT_UCS4String
00324 {
00325 public:
00326 UT_UCS4String();
00327 UT_UCS4String(const UT_UCS4Char * sz, size_t n = 0 );
00328 UT_UCS4String(const UT_UCS4String& rhs);
00329
00330
00331
00332 UT_UCS4String(const char * utf8_str, size_t bytelength = 0 );
00333 UT_UCS4String(const std::string & str );
00334
00335
00336
00337
00338
00339
00340 UT_UCS4String(const char * utf8_str, size_t bytelength , bool strip_whitespace);
00341
00342 ~UT_UCS4String();
00343
00344 size_t size() const;
00345 size_t length () const { return size () ; }
00346
00347 void reserve(size_t n);
00348 bool empty() const;
00349 void clear() const;
00350
00351 UT_UCS4String substr(size_t iStart, size_t nChars) const;
00352 UT_UCS4String substr(size_t iStart) const;
00353 UT_UCS4String substr( const UT_UCS4Char* iter ) const;
00354
00355 UT_UCS4String& operator=(const UT_UCS4String& rhs);
00356 UT_UCS4String& operator=(const UT_UCS4Char * rhs);
00357 UT_UCS4String& operator+=(const UT_UCS4String& rhs);
00358 UT_UCS4String& operator+=(const UT_UCS4Char * rhs);
00359 UT_UCS4String& operator+=(UT_UCS4Char rhs);
00360 UT_UCS4String& operator+=(char rhs);
00361 UT_UCS4String& operator+=(unsigned char rhs);
00362
00363 UT_UCS4Char operator[](size_t iPos) const;
00364 UT_UCS4Char& operator[](size_t iPos);
00365
00366 void swap(UT_UCS4String& rhs);
00367
00368
00369
00370
00371 const UT_UCS4Char* ucs4_str() const;
00372
00373
00374 const UT_UCS4Char* begin() const;
00375 const UT_UCS4Char* end() const;
00376
00377 const char * utf8_str ();
00378
00379 private:
00380 void _loadUtf8(const char * utf8_str, size_t bytelength);
00381 class UT_StringImpl<UT_UCS4Char>* pimpl;
00382 };
00383
00384
00385 bool operator==(const UT_UCS4String& s1, const UT_UCS4String& s2);
00386 bool operator==(const UT_UCS4String& s1, const UT_UCS4Char * s2);
00387 bool operator==(const UT_UCS4Char * s1, const UT_UCS4String& s2);
00388 bool operator!=(const UT_UCS4String& s1, const UT_UCS4String& s2);
00389 bool operator!=(const UT_UCS4String& s1, const UT_UCS4Char * s2);
00390 bool operator!=(const UT_UCS4Char * s1, const UT_UCS4String& s2);
00391
00392
00393 bool operator<(const UT_UCS4String& s1, const UT_UCS4String& s2);
00394
00395 UT_UCS4String operator+(const UT_UCS4String& s1, const UT_UCS4String& s2);
00396
00397
00398
00399 #endif // UT_STRING_CLASS_H