1*b1cdbd2cSJim Jagielski /**************************************************************
2*b1cdbd2cSJim Jagielski  *
3*b1cdbd2cSJim Jagielski  * Licensed to the Apache Software Foundation (ASF) under one
4*b1cdbd2cSJim Jagielski  * or more contributor license agreements.  See the NOTICE file
5*b1cdbd2cSJim Jagielski  * distributed with this work for additional information
6*b1cdbd2cSJim Jagielski  * regarding copyright ownership.  The ASF licenses this file
7*b1cdbd2cSJim Jagielski  * to you under the Apache License, Version 2.0 (the
8*b1cdbd2cSJim Jagielski  * "License"); you may not use this file except in compliance
9*b1cdbd2cSJim Jagielski  * with the License.  You may obtain a copy of the License at
10*b1cdbd2cSJim Jagielski  *
11*b1cdbd2cSJim Jagielski  *   http://www.apache.org/licenses/LICENSE-2.0
12*b1cdbd2cSJim Jagielski  *
13*b1cdbd2cSJim Jagielski  * Unless required by applicable law or agreed to in writing,
14*b1cdbd2cSJim Jagielski  * software distributed under the License is distributed on an
15*b1cdbd2cSJim Jagielski  * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
16*b1cdbd2cSJim Jagielski  * KIND, either express or implied.  See the License for the
17*b1cdbd2cSJim Jagielski  * specific language governing permissions and limitations
18*b1cdbd2cSJim Jagielski  * under the License.
19*b1cdbd2cSJim Jagielski  *
20*b1cdbd2cSJim Jagielski  *************************************************************/
21*b1cdbd2cSJim Jagielski 
22*b1cdbd2cSJim Jagielski 
23*b1cdbd2cSJim Jagielski 
24*b1cdbd2cSJim Jagielski // MARKER(update_precomp.py): autogen include statement, do not remove
25*b1cdbd2cSJim Jagielski #include "precompiled_i18npool.hxx"
26*b1cdbd2cSJim Jagielski 
27*b1cdbd2cSJim Jagielski #include <breakiteratorImpl.hxx>
28*b1cdbd2cSJim Jagielski #include <unicode/uchar.h>
29*b1cdbd2cSJim Jagielski #include <rtl/ustrbuf.hxx>
30*b1cdbd2cSJim Jagielski 
31*b1cdbd2cSJim Jagielski using namespace ::com::sun::star::uno;
32*b1cdbd2cSJim Jagielski using namespace ::com::sun::star::lang;
33*b1cdbd2cSJim Jagielski using namespace ::rtl;
34*b1cdbd2cSJim Jagielski 
35*b1cdbd2cSJim Jagielski namespace com { namespace sun { namespace star { namespace i18n {
36*b1cdbd2cSJim Jagielski 
BreakIteratorImpl(const Reference<XMultiServiceFactory> & rxMSF)37*b1cdbd2cSJim Jagielski BreakIteratorImpl::BreakIteratorImpl( const Reference < XMultiServiceFactory >& rxMSF ) : xMSF( rxMSF )
38*b1cdbd2cSJim Jagielski {
39*b1cdbd2cSJim Jagielski }
40*b1cdbd2cSJim Jagielski 
BreakIteratorImpl()41*b1cdbd2cSJim Jagielski BreakIteratorImpl::BreakIteratorImpl()
42*b1cdbd2cSJim Jagielski {
43*b1cdbd2cSJim Jagielski }
44*b1cdbd2cSJim Jagielski 
~BreakIteratorImpl()45*b1cdbd2cSJim Jagielski BreakIteratorImpl::~BreakIteratorImpl()
46*b1cdbd2cSJim Jagielski {
47*b1cdbd2cSJim Jagielski         // Clear lookuptable
48*b1cdbd2cSJim Jagielski         for (size_t l = 0; l < lookupTable.size(); l++)
49*b1cdbd2cSJim Jagielski             delete lookupTable[l];
50*b1cdbd2cSJim Jagielski         lookupTable.clear();
51*b1cdbd2cSJim Jagielski }
52*b1cdbd2cSJim Jagielski 
53*b1cdbd2cSJim Jagielski #define LBI getLocaleSpecificBreakIterator(rLocale)
54*b1cdbd2cSJim Jagielski 
nextCharacters(const OUString & Text,sal_Int32 nStartPos,const Locale & rLocale,sal_Int16 nCharacterIteratorMode,sal_Int32 nCount,sal_Int32 & nDone)55*b1cdbd2cSJim Jagielski sal_Int32 SAL_CALL BreakIteratorImpl::nextCharacters( const OUString& Text, sal_Int32 nStartPos,
56*b1cdbd2cSJim Jagielski         const Locale &rLocale, sal_Int16 nCharacterIteratorMode, sal_Int32 nCount, sal_Int32& nDone )
57*b1cdbd2cSJim Jagielski         throw(RuntimeException)
58*b1cdbd2cSJim Jagielski {
59*b1cdbd2cSJim Jagielski         if (nCount < 0) throw RuntimeException();
60*b1cdbd2cSJim Jagielski 
61*b1cdbd2cSJim Jagielski         return LBI->nextCharacters( Text, nStartPos, rLocale, nCharacterIteratorMode, nCount, nDone);
62*b1cdbd2cSJim Jagielski }
63*b1cdbd2cSJim Jagielski 
previousCharacters(const OUString & Text,sal_Int32 nStartPos,const Locale & rLocale,sal_Int16 nCharacterIteratorMode,sal_Int32 nCount,sal_Int32 & nDone)64*b1cdbd2cSJim Jagielski sal_Int32 SAL_CALL BreakIteratorImpl::previousCharacters( const OUString& Text, sal_Int32 nStartPos,
65*b1cdbd2cSJim Jagielski         const Locale& rLocale, sal_Int16 nCharacterIteratorMode, sal_Int32 nCount, sal_Int32& nDone )
66*b1cdbd2cSJim Jagielski         throw(RuntimeException)
67*b1cdbd2cSJim Jagielski {
68*b1cdbd2cSJim Jagielski         if (nCount < 0) throw RuntimeException();
69*b1cdbd2cSJim Jagielski 
70*b1cdbd2cSJim Jagielski         return LBI->previousCharacters( Text, nStartPos, rLocale, nCharacterIteratorMode, nCount, nDone);
71*b1cdbd2cSJim Jagielski }
72*b1cdbd2cSJim Jagielski 
73*b1cdbd2cSJim Jagielski #define isZWSP(c) (ch == 0x200B)
74*b1cdbd2cSJim Jagielski 
skipSpace(const OUString & Text,sal_Int32 nPos,sal_Int32 len,sal_Int16 rWordType,sal_Bool bDirection)75*b1cdbd2cSJim Jagielski static sal_Int32 skipSpace(const OUString& Text, sal_Int32 nPos, sal_Int32 len, sal_Int16 rWordType, sal_Bool bDirection)
76*b1cdbd2cSJim Jagielski {
77*b1cdbd2cSJim Jagielski 		sal_uInt32 ch=0;
78*b1cdbd2cSJim Jagielski 		sal_Int32 pos=nPos;
79*b1cdbd2cSJim Jagielski         switch (rWordType) {
80*b1cdbd2cSJim Jagielski             case WordType::ANYWORD_IGNOREWHITESPACES:
81*b1cdbd2cSJim Jagielski                 if (bDirection)
82*b1cdbd2cSJim Jagielski                     while (nPos < len && (u_isWhitespace(ch = Text.iterateCodePoints(&pos, 1)) || isZWSP(ch))) nPos=pos;
83*b1cdbd2cSJim Jagielski                 else
84*b1cdbd2cSJim Jagielski                     while (nPos > 0 && (u_isWhitespace(ch = Text.iterateCodePoints(&pos, -1)) || isZWSP(ch))) nPos=pos;
85*b1cdbd2cSJim Jagielski             break;
86*b1cdbd2cSJim Jagielski             case WordType::DICTIONARY_WORD:
87*b1cdbd2cSJim Jagielski                 if (bDirection)
88*b1cdbd2cSJim Jagielski                     while (nPos < len && (u_isWhitespace(ch = Text.iterateCodePoints(&pos, 1)) || isZWSP(ch) ||
89*b1cdbd2cSJim Jagielski                             ! (ch == 0x002E || u_isalnum(ch)))) nPos=pos;
90*b1cdbd2cSJim Jagielski                 else
91*b1cdbd2cSJim Jagielski                     while (nPos > 0 && (u_isWhitespace(ch = Text.iterateCodePoints(&pos, -1)) || isZWSP(ch) ||
92*b1cdbd2cSJim Jagielski                             ! (ch == 0x002E || u_isalnum(ch)))) nPos=pos;
93*b1cdbd2cSJim Jagielski             break;
94*b1cdbd2cSJim Jagielski             case WordType::WORD_COUNT:
95*b1cdbd2cSJim Jagielski                 if (bDirection)
96*b1cdbd2cSJim Jagielski                     while (nPos < len && (u_isUWhiteSpace(ch = Text.iterateCodePoints(&pos, 1)) || isZWSP(ch))) nPos=pos;
97*b1cdbd2cSJim Jagielski                 else
98*b1cdbd2cSJim Jagielski                     while (nPos > 0 && (u_isUWhiteSpace(ch = Text.iterateCodePoints(&pos, -1)) || isZWSP(ch))) nPos=pos;
99*b1cdbd2cSJim Jagielski             break;
100*b1cdbd2cSJim Jagielski         }
101*b1cdbd2cSJim Jagielski         return nPos;
102*b1cdbd2cSJim Jagielski }
103*b1cdbd2cSJim Jagielski 
nextWord(const OUString & Text,sal_Int32 nStartPos,const Locale & rLocale,sal_Int16 rWordType)104*b1cdbd2cSJim Jagielski Boundary SAL_CALL BreakIteratorImpl::nextWord( const OUString& Text, sal_Int32 nStartPos,
105*b1cdbd2cSJim Jagielski         const Locale& rLocale, sal_Int16 rWordType ) throw(RuntimeException)
106*b1cdbd2cSJim Jagielski {
107*b1cdbd2cSJim Jagielski         sal_Int32 len = Text.getLength();
108*b1cdbd2cSJim Jagielski         if( nStartPos < 0 || len == 0 )
109*b1cdbd2cSJim Jagielski             result.endPos = result.startPos = 0;
110*b1cdbd2cSJim Jagielski         else if (nStartPos >= len)
111*b1cdbd2cSJim Jagielski             result.endPos = result.startPos = len;
112*b1cdbd2cSJim Jagielski         else {
113*b1cdbd2cSJim Jagielski             result = LBI->nextWord(Text, nStartPos, rLocale, rWordType);
114*b1cdbd2cSJim Jagielski 
115*b1cdbd2cSJim Jagielski             nStartPos = skipSpace(Text, result.startPos, len, rWordType, sal_True);
116*b1cdbd2cSJim Jagielski 
117*b1cdbd2cSJim Jagielski             if ( nStartPos != result.startPos) {
118*b1cdbd2cSJim Jagielski                 if( nStartPos >= len )
119*b1cdbd2cSJim Jagielski                     result.startPos = result.endPos = len;
120*b1cdbd2cSJim Jagielski                 else {
121*b1cdbd2cSJim Jagielski                     result = LBI->getWordBoundary(Text, nStartPos, rLocale, rWordType, sal_True);
122*b1cdbd2cSJim Jagielski                     // i88041: avoid startPos goes back to nStartPos when switching between Latin and CJK scripts
123*b1cdbd2cSJim Jagielski                     if (result.startPos < nStartPos) result.startPos = nStartPos;
124*b1cdbd2cSJim Jagielski                 }
125*b1cdbd2cSJim Jagielski             }
126*b1cdbd2cSJim Jagielski         }
127*b1cdbd2cSJim Jagielski         return result;
128*b1cdbd2cSJim Jagielski }
129*b1cdbd2cSJim Jagielski 
isCJK(const Locale & rLocale)130*b1cdbd2cSJim Jagielski static inline sal_Bool SAL_CALL isCJK( const Locale& rLocale ) {
131*b1cdbd2cSJim Jagielski         return rLocale.Language.equalsAscii("zh") || rLocale.Language.equalsAscii("ja") || rLocale.Language.equalsAscii("ko");
132*b1cdbd2cSJim Jagielski }
133*b1cdbd2cSJim Jagielski 
previousWord(const OUString & Text,sal_Int32 nStartPos,const Locale & rLocale,sal_Int16 rWordType)134*b1cdbd2cSJim Jagielski Boundary SAL_CALL BreakIteratorImpl::previousWord( const OUString& Text, sal_Int32 nStartPos,
135*b1cdbd2cSJim Jagielski         const Locale& rLocale, sal_Int16 rWordType) throw(RuntimeException)
136*b1cdbd2cSJim Jagielski {
137*b1cdbd2cSJim Jagielski         sal_Int32 len = Text.getLength();
138*b1cdbd2cSJim Jagielski         if( nStartPos <= 0 || len == 0 ) {
139*b1cdbd2cSJim Jagielski             result.endPos = result.startPos = 0;
140*b1cdbd2cSJim Jagielski             return result;
141*b1cdbd2cSJim Jagielski         } else if (nStartPos > len) {
142*b1cdbd2cSJim Jagielski             result.endPos = result.startPos = len;
143*b1cdbd2cSJim Jagielski             return result;
144*b1cdbd2cSJim Jagielski         }
145*b1cdbd2cSJim Jagielski 
146*b1cdbd2cSJim Jagielski         sal_Int32 nPos = skipSpace(Text, nStartPos, len, rWordType, sal_False);
147*b1cdbd2cSJim Jagielski 
148*b1cdbd2cSJim Jagielski         // if some spaces are skiped, and the script type is Asian with no CJK rLocale, we have to return
149*b1cdbd2cSJim Jagielski         // (nStartPos, -1) for caller to send correct rLocale for loading correct dictionary.
150*b1cdbd2cSJim Jagielski         result.startPos = nPos;
151*b1cdbd2cSJim Jagielski         if (nPos != nStartPos && nPos > 0 && !isCJK(rLocale) && getScriptClass(Text.iterateCodePoints(&nPos, -1)) == ScriptType::ASIAN) {
152*b1cdbd2cSJim Jagielski             result.endPos = -1;
153*b1cdbd2cSJim Jagielski             return result;
154*b1cdbd2cSJim Jagielski         }
155*b1cdbd2cSJim Jagielski 
156*b1cdbd2cSJim Jagielski         return LBI->previousWord(Text, result.startPos, rLocale, rWordType);
157*b1cdbd2cSJim Jagielski }
158*b1cdbd2cSJim Jagielski 
159*b1cdbd2cSJim Jagielski 
getWordBoundary(const OUString & Text,sal_Int32 nPos,const Locale & rLocale,sal_Int16 rWordType,sal_Bool bDirection)160*b1cdbd2cSJim Jagielski Boundary SAL_CALL BreakIteratorImpl::getWordBoundary( const OUString& Text, sal_Int32 nPos, const Locale& rLocale,
161*b1cdbd2cSJim Jagielski         sal_Int16 rWordType, sal_Bool bDirection ) throw(RuntimeException)
162*b1cdbd2cSJim Jagielski {
163*b1cdbd2cSJim Jagielski         sal_Int32 len = Text.getLength();
164*b1cdbd2cSJim Jagielski         if( nPos < 0 || len == 0 )
165*b1cdbd2cSJim Jagielski             result.endPos = result.startPos = 0;
166*b1cdbd2cSJim Jagielski         else if (nPos > len)
167*b1cdbd2cSJim Jagielski             result.endPos = result.startPos = len;
168*b1cdbd2cSJim Jagielski         else {
169*b1cdbd2cSJim Jagielski             sal_Int32 next, prev;
170*b1cdbd2cSJim Jagielski             next = skipSpace(Text, nPos, len, rWordType, sal_True);
171*b1cdbd2cSJim Jagielski             prev = skipSpace(Text, nPos, len, rWordType, sal_False);
172*b1cdbd2cSJim Jagielski             if (prev == 0 && next == len) {
173*b1cdbd2cSJim Jagielski                 result.endPos = result.startPos = nPos;
174*b1cdbd2cSJim Jagielski             } else if (prev == 0 && ! bDirection) {
175*b1cdbd2cSJim Jagielski                 result.endPos = result.startPos = 0;
176*b1cdbd2cSJim Jagielski             } else if (next == len && bDirection) {
177*b1cdbd2cSJim Jagielski                 result.endPos = result.startPos = len;
178*b1cdbd2cSJim Jagielski             } else {
179*b1cdbd2cSJim Jagielski                 if (next != prev) {
180*b1cdbd2cSJim Jagielski                     if (next == nPos && next != len)
181*b1cdbd2cSJim Jagielski                         bDirection = sal_True;
182*b1cdbd2cSJim Jagielski                     else if (prev == nPos && prev != 0)
183*b1cdbd2cSJim Jagielski                         bDirection = sal_False;
184*b1cdbd2cSJim Jagielski                     else
185*b1cdbd2cSJim Jagielski                         nPos = bDirection ? next : prev;
186*b1cdbd2cSJim Jagielski                 }
187*b1cdbd2cSJim Jagielski                 result = LBI->getWordBoundary(Text, nPos, rLocale, rWordType, bDirection);
188*b1cdbd2cSJim Jagielski             }
189*b1cdbd2cSJim Jagielski         }
190*b1cdbd2cSJim Jagielski         return result;
191*b1cdbd2cSJim Jagielski }
192*b1cdbd2cSJim Jagielski 
isBeginWord(const OUString & Text,sal_Int32 nPos,const Locale & rLocale,sal_Int16 rWordType)193*b1cdbd2cSJim Jagielski sal_Bool SAL_CALL BreakIteratorImpl::isBeginWord( const OUString& Text, sal_Int32 nPos,
194*b1cdbd2cSJim Jagielski         const Locale& rLocale, sal_Int16 rWordType ) throw(RuntimeException)
195*b1cdbd2cSJim Jagielski {
196*b1cdbd2cSJim Jagielski         sal_Int32 len = Text.getLength();
197*b1cdbd2cSJim Jagielski 
198*b1cdbd2cSJim Jagielski         if (nPos < 0 || nPos >= len) return sal_False;
199*b1cdbd2cSJim Jagielski 
200*b1cdbd2cSJim Jagielski         sal_Int32 tmp = skipSpace(Text, nPos, len, rWordType, sal_True);
201*b1cdbd2cSJim Jagielski 
202*b1cdbd2cSJim Jagielski         if (tmp != nPos) return sal_False;
203*b1cdbd2cSJim Jagielski 
204*b1cdbd2cSJim Jagielski         result = getWordBoundary(Text, nPos, rLocale, rWordType, sal_True);
205*b1cdbd2cSJim Jagielski 
206*b1cdbd2cSJim Jagielski         return result.startPos == nPos;
207*b1cdbd2cSJim Jagielski }
208*b1cdbd2cSJim Jagielski 
isEndWord(const OUString & Text,sal_Int32 nPos,const Locale & rLocale,sal_Int16 rWordType)209*b1cdbd2cSJim Jagielski sal_Bool SAL_CALL BreakIteratorImpl::isEndWord( const OUString& Text, sal_Int32 nPos,
210*b1cdbd2cSJim Jagielski         const Locale& rLocale, sal_Int16 rWordType ) throw(RuntimeException)
211*b1cdbd2cSJim Jagielski {
212*b1cdbd2cSJim Jagielski         sal_Int32 len = Text.getLength();
213*b1cdbd2cSJim Jagielski 
214*b1cdbd2cSJim Jagielski         if (nPos <= 0 || nPos > len) return sal_False;
215*b1cdbd2cSJim Jagielski 
216*b1cdbd2cSJim Jagielski         sal_Int32 tmp = skipSpace(Text, nPos, len, rWordType, sal_False);
217*b1cdbd2cSJim Jagielski 
218*b1cdbd2cSJim Jagielski         if (tmp != nPos) return sal_False;
219*b1cdbd2cSJim Jagielski 
220*b1cdbd2cSJim Jagielski         result = getWordBoundary(Text, nPos, rLocale, rWordType, sal_False);
221*b1cdbd2cSJim Jagielski 
222*b1cdbd2cSJim Jagielski         return result.endPos == nPos;
223*b1cdbd2cSJim Jagielski }
224*b1cdbd2cSJim Jagielski 
beginOfSentence(const OUString & Text,sal_Int32 nStartPos,const Locale & rLocale)225*b1cdbd2cSJim Jagielski sal_Int32 SAL_CALL BreakIteratorImpl::beginOfSentence( const OUString& Text, sal_Int32 nStartPos,
226*b1cdbd2cSJim Jagielski         const Locale &rLocale ) throw(RuntimeException)
227*b1cdbd2cSJim Jagielski {
228*b1cdbd2cSJim Jagielski         if (nStartPos < 0 || nStartPos > Text.getLength())
229*b1cdbd2cSJim Jagielski             return -1;
230*b1cdbd2cSJim Jagielski         if (Text.getLength() == 0) return 0;
231*b1cdbd2cSJim Jagielski         return LBI->beginOfSentence(Text, nStartPos, rLocale);
232*b1cdbd2cSJim Jagielski }
233*b1cdbd2cSJim Jagielski 
endOfSentence(const OUString & Text,sal_Int32 nStartPos,const Locale & rLocale)234*b1cdbd2cSJim Jagielski sal_Int32 SAL_CALL BreakIteratorImpl::endOfSentence( const OUString& Text, sal_Int32 nStartPos,
235*b1cdbd2cSJim Jagielski         const Locale &rLocale ) throw(RuntimeException)
236*b1cdbd2cSJim Jagielski {
237*b1cdbd2cSJim Jagielski         if (nStartPos < 0 || nStartPos > Text.getLength())
238*b1cdbd2cSJim Jagielski             return -1;
239*b1cdbd2cSJim Jagielski         if (Text.getLength() == 0) return 0;
240*b1cdbd2cSJim Jagielski         return LBI->endOfSentence(Text, nStartPos, rLocale);
241*b1cdbd2cSJim Jagielski }
242*b1cdbd2cSJim Jagielski 
getLineBreak(const OUString & Text,sal_Int32 nStartPos,const Locale & rLocale,sal_Int32 nMinBreakPos,const LineBreakHyphenationOptions & hOptions,const LineBreakUserOptions & bOptions)243*b1cdbd2cSJim Jagielski LineBreakResults SAL_CALL BreakIteratorImpl::getLineBreak( const OUString& Text, sal_Int32 nStartPos,
244*b1cdbd2cSJim Jagielski         const Locale& rLocale, sal_Int32 nMinBreakPos, const LineBreakHyphenationOptions& hOptions,
245*b1cdbd2cSJim Jagielski         const LineBreakUserOptions& bOptions ) throw(RuntimeException)
246*b1cdbd2cSJim Jagielski {
247*b1cdbd2cSJim Jagielski         return LBI->getLineBreak(Text, nStartPos, rLocale, nMinBreakPos, hOptions, bOptions);
248*b1cdbd2cSJim Jagielski }
249*b1cdbd2cSJim Jagielski 
getScriptType(const OUString & Text,sal_Int32 nPos)250*b1cdbd2cSJim Jagielski sal_Int16 SAL_CALL BreakIteratorImpl::getScriptType( const OUString& Text, sal_Int32 nPos )
251*b1cdbd2cSJim Jagielski         throw(RuntimeException)
252*b1cdbd2cSJim Jagielski {
253*b1cdbd2cSJim Jagielski         return (nPos < 0 || nPos >= Text.getLength()) ? ScriptType::WEAK :
254*b1cdbd2cSJim Jagielski                             getScriptClass(Text.iterateCodePoints(&nPos, 0));
255*b1cdbd2cSJim Jagielski }
256*b1cdbd2cSJim Jagielski 
257*b1cdbd2cSJim Jagielski 
258*b1cdbd2cSJim Jagielski /** Increments/decrements position first, then obtains character.
259*b1cdbd2cSJim Jagielski     @return current position, may be -1 or text length if string was consumed.
260*b1cdbd2cSJim Jagielski  */
iterateCodePoints(const OUString & Text,sal_Int32 & nStartPos,sal_Int32 inc,sal_uInt32 & ch)261*b1cdbd2cSJim Jagielski static sal_Int32 SAL_CALL iterateCodePoints(const OUString& Text, sal_Int32 &nStartPos, sal_Int32 inc, sal_uInt32& ch) {
262*b1cdbd2cSJim Jagielski         sal_Int32 nLen = Text.getLength();
263*b1cdbd2cSJim Jagielski 		if (nStartPos + inc < 0 || nStartPos + inc >= nLen) {
264*b1cdbd2cSJim Jagielski 			ch = 0;
265*b1cdbd2cSJim Jagielski 			nStartPos = nStartPos + inc < 0 ? -1 : nLen;
266*b1cdbd2cSJim Jagielski 		} else {
267*b1cdbd2cSJim Jagielski 			ch = Text.iterateCodePoints(&nStartPos, inc);
268*b1cdbd2cSJim Jagielski             // Fix for #i80436#.
269*b1cdbd2cSJim Jagielski             // erAck: 2009-06-30T21:52+0200  This logic looks somewhat
270*b1cdbd2cSJim Jagielski             // suspicious as if it cures a symptom.. anyway, had to add
271*b1cdbd2cSJim Jagielski             // nStartPos < Text.getLength() to silence the (correct) assertion
272*b1cdbd2cSJim Jagielski             // in rtl_uString_iterateCodePoints() if Text was one character
273*b1cdbd2cSJim Jagielski             // (codepoint) only, made up of a surrogate pair.
274*b1cdbd2cSJim Jagielski             //if (inc > 0 && nStartPos < Text.getLength())
275*b1cdbd2cSJim Jagielski             //    ch = Text.iterateCodePoints(&nStartPos, 0);
276*b1cdbd2cSJim Jagielski             // With surrogates, nStartPos may actually point behind string
277*b1cdbd2cSJim Jagielski             // now, even if inc is only +1
278*b1cdbd2cSJim Jagielski 			if (inc > 0)
279*b1cdbd2cSJim Jagielski                 ch = (nStartPos < nLen ? Text.iterateCodePoints(&nStartPos, 0) : 0);
280*b1cdbd2cSJim Jagielski 		}
281*b1cdbd2cSJim Jagielski 		return nStartPos;
282*b1cdbd2cSJim Jagielski }
283*b1cdbd2cSJim Jagielski 
284*b1cdbd2cSJim Jagielski 
beginOfScript(const OUString & Text,sal_Int32 nStartPos,sal_Int16 ScriptType)285*b1cdbd2cSJim Jagielski sal_Int32 SAL_CALL BreakIteratorImpl::beginOfScript( const OUString& Text,
286*b1cdbd2cSJim Jagielski         sal_Int32 nStartPos, sal_Int16 ScriptType ) throw(RuntimeException)
287*b1cdbd2cSJim Jagielski {
288*b1cdbd2cSJim Jagielski         if (nStartPos < 0 || nStartPos >= Text.getLength())
289*b1cdbd2cSJim Jagielski             return -1;
290*b1cdbd2cSJim Jagielski 
291*b1cdbd2cSJim Jagielski         if(ScriptType != getScriptClass(Text.iterateCodePoints(&nStartPos, 0)))
292*b1cdbd2cSJim Jagielski             return -1;
293*b1cdbd2cSJim Jagielski 
294*b1cdbd2cSJim Jagielski 		if (nStartPos == 0) return 0;
295*b1cdbd2cSJim Jagielski 		sal_uInt32 ch=0;
296*b1cdbd2cSJim Jagielski         while (iterateCodePoints(Text, nStartPos, -1, ch) >= 0 && ScriptType == getScriptClass(ch)) {
297*b1cdbd2cSJim Jagielski 			if (nStartPos == 0) return 0;
298*b1cdbd2cSJim Jagielski 		}
299*b1cdbd2cSJim Jagielski 
300*b1cdbd2cSJim Jagielski         return  iterateCodePoints(Text, nStartPos, 1, ch);
301*b1cdbd2cSJim Jagielski }
302*b1cdbd2cSJim Jagielski 
endOfScript(const OUString & Text,sal_Int32 nStartPos,sal_Int16 ScriptType)303*b1cdbd2cSJim Jagielski sal_Int32 SAL_CALL BreakIteratorImpl::endOfScript( const OUString& Text,
304*b1cdbd2cSJim Jagielski         sal_Int32 nStartPos, sal_Int16 ScriptType ) throw(RuntimeException)
305*b1cdbd2cSJim Jagielski {
306*b1cdbd2cSJim Jagielski         if (nStartPos < 0 || nStartPos >= Text.getLength())
307*b1cdbd2cSJim Jagielski             return -1;
308*b1cdbd2cSJim Jagielski 
309*b1cdbd2cSJim Jagielski         if(ScriptType != getScriptClass(Text.iterateCodePoints(&nStartPos, 0)))
310*b1cdbd2cSJim Jagielski             return -1;
311*b1cdbd2cSJim Jagielski 
312*b1cdbd2cSJim Jagielski         sal_Int32 strLen = Text.getLength();
313*b1cdbd2cSJim Jagielski 		sal_uInt32 ch=0;
314*b1cdbd2cSJim Jagielski         while(iterateCodePoints(Text, nStartPos, 1, ch) < strLen ) {
315*b1cdbd2cSJim Jagielski             sal_Int16 currentCharScriptType = getScriptClass(ch);
316*b1cdbd2cSJim Jagielski             if(ScriptType != currentCharScriptType && currentCharScriptType != ScriptType::WEAK)
317*b1cdbd2cSJim Jagielski                 break;
318*b1cdbd2cSJim Jagielski         }
319*b1cdbd2cSJim Jagielski         return  nStartPos;
320*b1cdbd2cSJim Jagielski }
321*b1cdbd2cSJim Jagielski 
previousScript(const OUString & Text,sal_Int32 nStartPos,sal_Int16 ScriptType)322*b1cdbd2cSJim Jagielski sal_Int32  SAL_CALL BreakIteratorImpl::previousScript( const OUString& Text,
323*b1cdbd2cSJim Jagielski         sal_Int32 nStartPos, sal_Int16 ScriptType ) throw(RuntimeException)
324*b1cdbd2cSJim Jagielski {
325*b1cdbd2cSJim Jagielski         if (nStartPos < 0)
326*b1cdbd2cSJim Jagielski             return -1;
327*b1cdbd2cSJim Jagielski         if (nStartPos > Text.getLength())
328*b1cdbd2cSJim Jagielski             nStartPos = Text.getLength();
329*b1cdbd2cSJim Jagielski 
330*b1cdbd2cSJim Jagielski         sal_Int16 numberOfChange = (ScriptType == getScriptClass(Text.iterateCodePoints(&nStartPos, 0))) ? 3 : 2;
331*b1cdbd2cSJim Jagielski 
332*b1cdbd2cSJim Jagielski 		sal_uInt32 ch=0;
333*b1cdbd2cSJim Jagielski         while (numberOfChange > 0 && iterateCodePoints(Text, nStartPos, -1, ch) >= 0) {
334*b1cdbd2cSJim Jagielski 			if ((((numberOfChange % 2) == 0) ^ (ScriptType != getScriptClass(ch))))
335*b1cdbd2cSJim Jagielski 				numberOfChange--;
336*b1cdbd2cSJim Jagielski 			else if (nStartPos == 0) {
337*b1cdbd2cSJim Jagielski 				if (numberOfChange > 0)
338*b1cdbd2cSJim Jagielski 					numberOfChange--;
339*b1cdbd2cSJim Jagielski 				if (nStartPos > 0)
340*b1cdbd2cSJim Jagielski 					Text.iterateCodePoints(&nStartPos, -1);
341*b1cdbd2cSJim Jagielski 				else
342*b1cdbd2cSJim Jagielski 					return -1;
343*b1cdbd2cSJim Jagielski 			}
344*b1cdbd2cSJim Jagielski         }
345*b1cdbd2cSJim Jagielski         return numberOfChange == 0 ? iterateCodePoints(Text, nStartPos, 1, ch) : -1;
346*b1cdbd2cSJim Jagielski }
347*b1cdbd2cSJim Jagielski 
nextScript(const OUString & Text,sal_Int32 nStartPos,sal_Int16 ScriptType)348*b1cdbd2cSJim Jagielski sal_Int32 SAL_CALL BreakIteratorImpl::nextScript( const OUString& Text, sal_Int32 nStartPos,
349*b1cdbd2cSJim Jagielski         sal_Int16 ScriptType ) throw(RuntimeException)
350*b1cdbd2cSJim Jagielski 
351*b1cdbd2cSJim Jagielski {
352*b1cdbd2cSJim Jagielski         if (nStartPos < 0)
353*b1cdbd2cSJim Jagielski             nStartPos = 0;
354*b1cdbd2cSJim Jagielski         sal_Int32 strLen = Text.getLength();
355*b1cdbd2cSJim Jagielski         if (nStartPos > strLen)
356*b1cdbd2cSJim Jagielski             return -1;
357*b1cdbd2cSJim Jagielski 
358*b1cdbd2cSJim Jagielski         sal_Int16 numberOfChange = (ScriptType == getScriptClass(Text.iterateCodePoints(&nStartPos, 0))) ? 2 : 1;
359*b1cdbd2cSJim Jagielski 
360*b1cdbd2cSJim Jagielski 		sal_uInt32 ch=0;
361*b1cdbd2cSJim Jagielski         while (numberOfChange > 0 && iterateCodePoints(Text, nStartPos, 1, ch) < strLen) {
362*b1cdbd2cSJim Jagielski 			sal_Int16 currentCharScriptType = getScriptClass(ch);
363*b1cdbd2cSJim Jagielski 			if ((numberOfChange == 1) ? (ScriptType == currentCharScriptType) :
364*b1cdbd2cSJim Jagielski 					(ScriptType != currentCharScriptType && currentCharScriptType != ScriptType::WEAK))
365*b1cdbd2cSJim Jagielski 				numberOfChange--;
366*b1cdbd2cSJim Jagielski         }
367*b1cdbd2cSJim Jagielski         return numberOfChange == 0 ? nStartPos : -1;
368*b1cdbd2cSJim Jagielski }
369*b1cdbd2cSJim Jagielski 
beginOfCharBlock(const OUString & Text,sal_Int32 nStartPos,const Locale &,sal_Int16 CharType)370*b1cdbd2cSJim Jagielski sal_Int32 SAL_CALL BreakIteratorImpl::beginOfCharBlock( const OUString& Text, sal_Int32 nStartPos,
371*b1cdbd2cSJim Jagielski         const Locale& /*rLocale*/, sal_Int16 CharType ) throw(RuntimeException)
372*b1cdbd2cSJim Jagielski {
373*b1cdbd2cSJim Jagielski         if (CharType == CharType::ANY_CHAR) return 0;
374*b1cdbd2cSJim Jagielski         if (nStartPos < 0 || nStartPos >= Text.getLength()) return -1;
375*b1cdbd2cSJim Jagielski         if (CharType != (sal_Int16)u_charType( Text.iterateCodePoints(&nStartPos, 0))) return -1;
376*b1cdbd2cSJim Jagielski 
377*b1cdbd2cSJim Jagielski         sal_Int32 nPos=nStartPos;
378*b1cdbd2cSJim Jagielski         while(nStartPos > 0 && CharType == (sal_Int16)u_charType(Text.iterateCodePoints(&nPos, -1))) { nStartPos=nPos; }
379*b1cdbd2cSJim Jagielski         return nStartPos; // begin of char block is inclusive
380*b1cdbd2cSJim Jagielski }
381*b1cdbd2cSJim Jagielski 
endOfCharBlock(const OUString & Text,sal_Int32 nStartPos,const Locale &,sal_Int16 CharType)382*b1cdbd2cSJim Jagielski sal_Int32 SAL_CALL BreakIteratorImpl::endOfCharBlock( const OUString& Text, sal_Int32 nStartPos,
383*b1cdbd2cSJim Jagielski         const Locale& /*rLocale*/, sal_Int16 CharType ) throw(RuntimeException)
384*b1cdbd2cSJim Jagielski {
385*b1cdbd2cSJim Jagielski         sal_Int32 strLen = Text.getLength();
386*b1cdbd2cSJim Jagielski 
387*b1cdbd2cSJim Jagielski         if (CharType == CharType::ANY_CHAR) return strLen; // end of char block is exclusive
388*b1cdbd2cSJim Jagielski         if (nStartPos < 0 || nStartPos >= strLen) return -1;
389*b1cdbd2cSJim Jagielski         if (CharType != (sal_Int16)u_charType(Text.iterateCodePoints(&nStartPos, 0))) return -1;
390*b1cdbd2cSJim Jagielski 
391*b1cdbd2cSJim Jagielski 		sal_uInt32 ch=0;
392*b1cdbd2cSJim Jagielski         while(iterateCodePoints(Text, nStartPos, 1, ch) < strLen && CharType == (sal_Int16)u_charType(ch)) {}
393*b1cdbd2cSJim Jagielski         return nStartPos; // end of char block is exclusive
394*b1cdbd2cSJim Jagielski }
395*b1cdbd2cSJim Jagielski 
nextCharBlock(const OUString & Text,sal_Int32 nStartPos,const Locale &,sal_Int16 CharType)396*b1cdbd2cSJim Jagielski sal_Int32 SAL_CALL BreakIteratorImpl::nextCharBlock( const OUString& Text, sal_Int32 nStartPos,
397*b1cdbd2cSJim Jagielski         const Locale& /*rLocale*/, sal_Int16 CharType ) throw(RuntimeException)
398*b1cdbd2cSJim Jagielski {
399*b1cdbd2cSJim Jagielski         if (CharType == CharType::ANY_CHAR) return -1;
400*b1cdbd2cSJim Jagielski         if (nStartPos < 0 || nStartPos >= Text.getLength()) return -1;
401*b1cdbd2cSJim Jagielski 
402*b1cdbd2cSJim Jagielski         sal_Int16 numberOfChange = (CharType == (sal_Int16)u_charType(Text.iterateCodePoints(&nStartPos, 0))) ? 2 : 1;
403*b1cdbd2cSJim Jagielski         sal_Int32 strLen = Text.getLength();
404*b1cdbd2cSJim Jagielski 
405*b1cdbd2cSJim Jagielski 	sal_uInt32 ch=0;
406*b1cdbd2cSJim Jagielski 	while (numberOfChange > 0 && iterateCodePoints(Text, nStartPos, 1, ch) < strLen) {
407*b1cdbd2cSJim Jagielski 		if ((CharType != (sal_Int16)u_charType(ch)) ^ (numberOfChange == 1))
408*b1cdbd2cSJim Jagielski 			numberOfChange--;
409*b1cdbd2cSJim Jagielski     }
410*b1cdbd2cSJim Jagielski     return numberOfChange == 0 ? nStartPos : -1;
411*b1cdbd2cSJim Jagielski }
412*b1cdbd2cSJim Jagielski 
previousCharBlock(const OUString & Text,sal_Int32 nStartPos,const Locale &,sal_Int16 CharType)413*b1cdbd2cSJim Jagielski sal_Int32 SAL_CALL BreakIteratorImpl::previousCharBlock( const OUString& Text, sal_Int32 nStartPos,
414*b1cdbd2cSJim Jagielski         const Locale& /*rLocale*/, sal_Int16 CharType ) throw(RuntimeException)
415*b1cdbd2cSJim Jagielski {
416*b1cdbd2cSJim Jagielski         if(CharType == CharType::ANY_CHAR) return -1;
417*b1cdbd2cSJim Jagielski         if (nStartPos < 0 || nStartPos >= Text.getLength()) return -1;
418*b1cdbd2cSJim Jagielski 
419*b1cdbd2cSJim Jagielski         sal_Int16 numberOfChange = (CharType == (sal_Int16)u_charType(Text.iterateCodePoints(&nStartPos, 0))) ? 3 : 2;
420*b1cdbd2cSJim Jagielski 
421*b1cdbd2cSJim Jagielski 		sal_uInt32 ch=0;
422*b1cdbd2cSJim Jagielski         while (numberOfChange > 0 && iterateCodePoints(Text, nStartPos, -1, ch) >= 0) {
423*b1cdbd2cSJim Jagielski 			if (((numberOfChange % 2) == 0) ^ (CharType != (sal_Int16)u_charType(ch)))
424*b1cdbd2cSJim Jagielski 				numberOfChange--;
425*b1cdbd2cSJim Jagielski 			if (nStartPos == 0 && numberOfChange > 0) {
426*b1cdbd2cSJim Jagielski 				numberOfChange--;
427*b1cdbd2cSJim Jagielski 				if (numberOfChange == 0) return nStartPos;
428*b1cdbd2cSJim Jagielski 			}
429*b1cdbd2cSJim Jagielski         }
430*b1cdbd2cSJim Jagielski         return numberOfChange == 0 ? iterateCodePoints(Text, nStartPos, 1, ch) : -1;
431*b1cdbd2cSJim Jagielski }
432*b1cdbd2cSJim Jagielski 
433*b1cdbd2cSJim Jagielski 
434*b1cdbd2cSJim Jagielski 
getWordType(const OUString &,sal_Int32,const Locale &)435*b1cdbd2cSJim Jagielski sal_Int16 SAL_CALL BreakIteratorImpl::getWordType( const OUString& /*Text*/,
436*b1cdbd2cSJim Jagielski         sal_Int32 /*nPos*/, const Locale& /*rLocale*/ ) throw(RuntimeException)
437*b1cdbd2cSJim Jagielski {
438*b1cdbd2cSJim Jagielski         return 0;
439*b1cdbd2cSJim Jagielski }
440*b1cdbd2cSJim Jagielski 
441*b1cdbd2cSJim Jagielski typedef struct {
442*b1cdbd2cSJim Jagielski     UBlockCode from;
443*b1cdbd2cSJim Jagielski     UBlockCode to;
444*b1cdbd2cSJim Jagielski     sal_Int16 script;
445*b1cdbd2cSJim Jagielski } UBlock2Script;
446*b1cdbd2cSJim Jagielski 
447*b1cdbd2cSJim Jagielski // for a list of the UBLOCK_... values see:
448*b1cdbd2cSJim Jagielski // http://icu-project.org/apiref/icu4c/uchar_8h.html
449*b1cdbd2cSJim Jagielski // where enum UBlockCode is defined.
450*b1cdbd2cSJim Jagielski // See also http://www.unicode.org/charts/ for general reference
451*b1cdbd2cSJim Jagielski static UBlock2Script scriptList[] = {
452*b1cdbd2cSJim Jagielski     {UBLOCK_NO_BLOCK, UBLOCK_NO_BLOCK, ScriptType::WEAK},
453*b1cdbd2cSJim Jagielski     {UBLOCK_BASIC_LATIN, UBLOCK_ARMENIAN, ScriptType::LATIN},
454*b1cdbd2cSJim Jagielski     {UBLOCK_HEBREW, UBLOCK_MYANMAR, ScriptType::COMPLEX},
455*b1cdbd2cSJim Jagielski     {UBLOCK_GEORGIAN, UBLOCK_GEORGIAN, ScriptType::LATIN},
456*b1cdbd2cSJim Jagielski     {UBLOCK_HANGUL_JAMO, UBLOCK_HANGUL_JAMO, ScriptType::ASIAN},
457*b1cdbd2cSJim Jagielski     {UBLOCK_ETHIOPIC, UBLOCK_ETHIOPIC, ScriptType::COMPLEX},
458*b1cdbd2cSJim Jagielski     {UBLOCK_CHEROKEE, UBLOCK_RUNIC, ScriptType::LATIN},
459*b1cdbd2cSJim Jagielski     {UBLOCK_KHMER, UBLOCK_MONGOLIAN, ScriptType::COMPLEX},
460*b1cdbd2cSJim Jagielski     {UBLOCK_LATIN_EXTENDED_ADDITIONAL, UBLOCK_GREEK_EXTENDED, ScriptType::LATIN},
461*b1cdbd2cSJim Jagielski     {UBLOCK_CJK_RADICALS_SUPPLEMENT, UBLOCK_HANGUL_SYLLABLES, ScriptType::ASIAN},
462*b1cdbd2cSJim Jagielski     {UBLOCK_CJK_COMPATIBILITY_IDEOGRAPHS, UBLOCK_CJK_COMPATIBILITY_IDEOGRAPHS, ScriptType::ASIAN},
463*b1cdbd2cSJim Jagielski     {UBLOCK_ARABIC_PRESENTATION_FORMS_A, UBLOCK_ARABIC_PRESENTATION_FORMS_A, ScriptType::COMPLEX},
464*b1cdbd2cSJim Jagielski     {UBLOCK_CJK_COMPATIBILITY_FORMS, UBLOCK_CJK_COMPATIBILITY_FORMS, ScriptType::ASIAN},
465*b1cdbd2cSJim Jagielski     {UBLOCK_ARABIC_PRESENTATION_FORMS_B, UBLOCK_ARABIC_PRESENTATION_FORMS_B, ScriptType::COMPLEX},
466*b1cdbd2cSJim Jagielski     {UBLOCK_HALFWIDTH_AND_FULLWIDTH_FORMS, UBLOCK_HALFWIDTH_AND_FULLWIDTH_FORMS, ScriptType::ASIAN},
467*b1cdbd2cSJim Jagielski     {UBLOCK_CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B, UBLOCK_CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT, ScriptType::ASIAN},
468*b1cdbd2cSJim Jagielski     {UBLOCK_CJK_STROKES, UBLOCK_CJK_STROKES, ScriptType::ASIAN},
469*b1cdbd2cSJim Jagielski     {UBLOCK_LATIN_EXTENDED_C, UBLOCK_LATIN_EXTENDED_D, ScriptType::LATIN}
470*b1cdbd2cSJim Jagielski };
471*b1cdbd2cSJim Jagielski 
472*b1cdbd2cSJim Jagielski #define scriptListCount sizeof (scriptList) / sizeof (UBlock2Script)
473*b1cdbd2cSJim Jagielski 
getScriptClass(sal_uInt32 currentChar)474*b1cdbd2cSJim Jagielski sal_Int16  BreakIteratorImpl::getScriptClass(sal_uInt32 currentChar)
475*b1cdbd2cSJim Jagielski {
476*b1cdbd2cSJim Jagielski         static sal_uInt32 lastChar = 0;
477*b1cdbd2cSJim Jagielski         static sal_Int16 nRet = 0;
478*b1cdbd2cSJim Jagielski 
479*b1cdbd2cSJim Jagielski         if (currentChar != lastChar) {
480*b1cdbd2cSJim Jagielski             lastChar = currentChar;
481*b1cdbd2cSJim Jagielski 
482*b1cdbd2cSJim Jagielski             //JP 21.9.2001: handle specific characters - always as weak
483*b1cdbd2cSJim Jagielski             //                  definition of 1 - this breaks a word
484*b1cdbd2cSJim Jagielski             //                  2 - this can be inside a word
485*b1cdbd2cSJim Jagielski             //                  0x20 & 0xA0 - Bug 102975, declare western space and non-break space as WEAK char.
486*b1cdbd2cSJim Jagielski             if( 1 == currentChar || 2 == currentChar || 0x20 == currentChar || 0xA0 == currentChar)
487*b1cdbd2cSJim Jagielski                 nRet = ScriptType::WEAK;
488*b1cdbd2cSJim Jagielski             // workaround for Coptic
489*b1cdbd2cSJim Jagielski             else if ( 0x2C80 <= currentChar && 0x2CE3 >= currentChar)
490*b1cdbd2cSJim Jagielski                 nRet = ScriptType::LATIN;
491*b1cdbd2cSJim Jagielski             // work-around for ligatures (see http://www.unicode.org/charts/PDF/UFB00.pdf)
492*b1cdbd2cSJim Jagielski             else if ((0xFB00 <= currentChar && currentChar <= 0xFB06) ||
493*b1cdbd2cSJim Jagielski                      (0xFB13 <= currentChar && currentChar <= 0xFB17))
494*b1cdbd2cSJim Jagielski                 nRet = ScriptType::LATIN;
495*b1cdbd2cSJim Jagielski             else {
496*b1cdbd2cSJim Jagielski                 UBlockCode block=ublock_getCode(currentChar);
497*b1cdbd2cSJim Jagielski                 sal_uInt16 i;
498*b1cdbd2cSJim Jagielski                 for ( i = 0; i < scriptListCount; i++) {
499*b1cdbd2cSJim Jagielski                     if (block <= scriptList[i].to) break;
500*b1cdbd2cSJim Jagielski                 }
501*b1cdbd2cSJim Jagielski                 nRet=(i < scriptListCount && block >= scriptList[i].from) ? scriptList[i].script : ScriptType::WEAK;
502*b1cdbd2cSJim Jagielski             }
503*b1cdbd2cSJim Jagielski         }
504*b1cdbd2cSJim Jagielski         return nRet;
505*b1cdbd2cSJim Jagielski }
506*b1cdbd2cSJim Jagielski 
operator ==(const Locale & l1,const Locale & l2)507*b1cdbd2cSJim Jagielski static inline sal_Bool operator == (const Locale& l1, const Locale& l2) {
508*b1cdbd2cSJim Jagielski         return l1.Language == l2.Language && l1.Country == l2.Country && l1.Variant == l2.Variant;
509*b1cdbd2cSJim Jagielski }
510*b1cdbd2cSJim Jagielski 
createLocaleSpecificBreakIterator(const OUString & aLocaleName)511*b1cdbd2cSJim Jagielski sal_Bool SAL_CALL BreakIteratorImpl::createLocaleSpecificBreakIterator(const OUString& aLocaleName) throw( RuntimeException )
512*b1cdbd2cSJim Jagielski {
513*b1cdbd2cSJim Jagielski         // to share service between same Language but different Country code, like zh_CN and zh_TW
514*b1cdbd2cSJim Jagielski         for (size_t l = 0; l < lookupTable.size(); l++) {
515*b1cdbd2cSJim Jagielski             lookupTableItem *listItem = lookupTable[l];
516*b1cdbd2cSJim Jagielski             if (aLocaleName == listItem->aLocale.Language) {
517*b1cdbd2cSJim Jagielski                 xBI = listItem->xBI;
518*b1cdbd2cSJim Jagielski                 return sal_True;
519*b1cdbd2cSJim Jagielski             }
520*b1cdbd2cSJim Jagielski         }
521*b1cdbd2cSJim Jagielski 
522*b1cdbd2cSJim Jagielski         Reference < uno::XInterface > xI = xMSF->createInstance(
523*b1cdbd2cSJim Jagielski             OUString::createFromAscii("com.sun.star.i18n.BreakIterator_") + aLocaleName);
524*b1cdbd2cSJim Jagielski 
525*b1cdbd2cSJim Jagielski         if ( xI.is() ) {
526*b1cdbd2cSJim Jagielski             xI->queryInterface( getCppuType((const Reference< XBreakIterator>*)0) ) >>= xBI;
527*b1cdbd2cSJim Jagielski             if (xBI.is()) {
528*b1cdbd2cSJim Jagielski                 lookupTable.push_back(new lookupTableItem(Locale(aLocaleName, aLocaleName, aLocaleName), xBI));
529*b1cdbd2cSJim Jagielski                 return sal_True;
530*b1cdbd2cSJim Jagielski             }
531*b1cdbd2cSJim Jagielski         }
532*b1cdbd2cSJim Jagielski         return sal_False;
533*b1cdbd2cSJim Jagielski }
534*b1cdbd2cSJim Jagielski 
535*b1cdbd2cSJim Jagielski Reference < XBreakIterator > SAL_CALL
getLocaleSpecificBreakIterator(const Locale & rLocale)536*b1cdbd2cSJim Jagielski BreakIteratorImpl::getLocaleSpecificBreakIterator(const Locale& rLocale) throw (RuntimeException)
537*b1cdbd2cSJim Jagielski {
538*b1cdbd2cSJim Jagielski         if (xBI.is() && rLocale == aLocale)
539*b1cdbd2cSJim Jagielski             return xBI;
540*b1cdbd2cSJim Jagielski         else if (xMSF.is()) {
541*b1cdbd2cSJim Jagielski             aLocale = rLocale;
542*b1cdbd2cSJim Jagielski 
543*b1cdbd2cSJim Jagielski             for (size_t i = 0; i < lookupTable.size(); i++) {
544*b1cdbd2cSJim Jagielski                 lookupTableItem *listItem = lookupTable[i];
545*b1cdbd2cSJim Jagielski                 if (rLocale == listItem->aLocale)
546*b1cdbd2cSJim Jagielski                     return xBI = listItem->xBI;
547*b1cdbd2cSJim Jagielski             }
548*b1cdbd2cSJim Jagielski 
549*b1cdbd2cSJim Jagielski             sal_Unicode under = (sal_Unicode)'_';
550*b1cdbd2cSJim Jagielski 
551*b1cdbd2cSJim Jagielski             sal_Int32 l = rLocale.Language.getLength();
552*b1cdbd2cSJim Jagielski             sal_Int32 c = rLocale.Country.getLength();
553*b1cdbd2cSJim Jagielski             sal_Int32 v = rLocale.Variant.getLength();
554*b1cdbd2cSJim Jagielski             OUStringBuffer aBuf(l+c+v+3);
555*b1cdbd2cSJim Jagielski 
556*b1cdbd2cSJim Jagielski             if ((l > 0 && c > 0 && v > 0 &&
557*b1cdbd2cSJim Jagielski                     // load service with name <base>_<lang>_<country>_<varian>
558*b1cdbd2cSJim Jagielski                     createLocaleSpecificBreakIterator(aBuf.append(rLocale.Language).append(under).append(
559*b1cdbd2cSJim Jagielski                                     rLocale.Country).append(under).append(rLocale.Variant).makeStringAndClear())) ||
560*b1cdbd2cSJim Jagielski                 (l > 0 && c > 0 &&
561*b1cdbd2cSJim Jagielski                     // load service with name <base>_<lang>_<country>
562*b1cdbd2cSJim Jagielski                     createLocaleSpecificBreakIterator(aBuf.append(rLocale.Language).append(under).append(
563*b1cdbd2cSJim Jagielski                                     rLocale.Country).makeStringAndClear())) ||
564*b1cdbd2cSJim Jagielski                 (l > 0 && c > 0 && rLocale.Language.compareToAscii("zh") == 0 &&
565*b1cdbd2cSJim Jagielski                                     (rLocale.Country.compareToAscii("HK") == 0 ||
566*b1cdbd2cSJim Jagielski                                     rLocale.Country.compareToAscii("MO") == 0) &&
567*b1cdbd2cSJim Jagielski                     // if the country code is HK or MO, one more step to try TW.
568*b1cdbd2cSJim Jagielski                     createLocaleSpecificBreakIterator(aBuf.append(rLocale.Language).append(under).appendAscii(
569*b1cdbd2cSJim Jagielski                                     "TW").makeStringAndClear())) ||
570*b1cdbd2cSJim Jagielski                 (l > 0 &&
571*b1cdbd2cSJim Jagielski                     // load service with name <base>_<lang>
572*b1cdbd2cSJim Jagielski                     createLocaleSpecificBreakIterator(rLocale.Language)) ||
573*b1cdbd2cSJim Jagielski                     // load default service with name <base>_Unicode
574*b1cdbd2cSJim Jagielski                     createLocaleSpecificBreakIterator(OUString::createFromAscii("Unicode"))) {
575*b1cdbd2cSJim Jagielski                 lookupTable.push_back( new lookupTableItem(aLocale, xBI) );
576*b1cdbd2cSJim Jagielski                 return xBI;
577*b1cdbd2cSJim Jagielski             }
578*b1cdbd2cSJim Jagielski         }
579*b1cdbd2cSJim Jagielski         throw RuntimeException();
580*b1cdbd2cSJim Jagielski }
581*b1cdbd2cSJim Jagielski 
582*b1cdbd2cSJim Jagielski const sal_Char cBreakIterator[] = "com.sun.star.i18n.BreakIterator";
583*b1cdbd2cSJim Jagielski 
584*b1cdbd2cSJim Jagielski OUString SAL_CALL
getImplementationName(void)585*b1cdbd2cSJim Jagielski BreakIteratorImpl::getImplementationName(void) throw( RuntimeException )
586*b1cdbd2cSJim Jagielski {
587*b1cdbd2cSJim Jagielski         return OUString::createFromAscii(cBreakIterator);
588*b1cdbd2cSJim Jagielski }
589*b1cdbd2cSJim Jagielski 
590*b1cdbd2cSJim Jagielski sal_Bool SAL_CALL
supportsService(const OUString & rServiceName)591*b1cdbd2cSJim Jagielski BreakIteratorImpl::supportsService(const OUString& rServiceName) throw( RuntimeException )
592*b1cdbd2cSJim Jagielski {
593*b1cdbd2cSJim Jagielski         return !rServiceName.compareToAscii(cBreakIterator);
594*b1cdbd2cSJim Jagielski }
595*b1cdbd2cSJim Jagielski 
596*b1cdbd2cSJim Jagielski Sequence< OUString > SAL_CALL
getSupportedServiceNames(void)597*b1cdbd2cSJim Jagielski BreakIteratorImpl::getSupportedServiceNames(void) throw( RuntimeException )
598*b1cdbd2cSJim Jagielski {
599*b1cdbd2cSJim Jagielski         Sequence< OUString > aRet(1);
600*b1cdbd2cSJim Jagielski         aRet[0] = OUString::createFromAscii(cBreakIterator);
601*b1cdbd2cSJim Jagielski         return aRet;
602*b1cdbd2cSJim Jagielski }
603*b1cdbd2cSJim Jagielski 
604*b1cdbd2cSJim Jagielski } } } }
605*b1cdbd2cSJim Jagielski 
606