1*b1cdbd2cSJim Jagielski /**************************************************************
2*b1cdbd2cSJim Jagielski  *
3*b1cdbd2cSJim Jagielski  * Licensed to the Apache Software Foundation (ASF) under one
4*b1cdbd2cSJim Jagielski  * or more contributor license agreements.  See the NOTICE file
5*b1cdbd2cSJim Jagielski  * distributed with this work for additional information
6*b1cdbd2cSJim Jagielski  * regarding copyright ownership.  The ASF licenses this file
7*b1cdbd2cSJim Jagielski  * to you under the Apache License, Version 2.0 (the
8*b1cdbd2cSJim Jagielski  * "License"); you may not use this file except in compliance
9*b1cdbd2cSJim Jagielski  * with the License.  You may obtain a copy of the License at
10*b1cdbd2cSJim Jagielski  *
11*b1cdbd2cSJim Jagielski  *   http://www.apache.org/licenses/LICENSE-2.0
12*b1cdbd2cSJim Jagielski  *
13*b1cdbd2cSJim Jagielski  * Unless required by applicable law or agreed to in writing,
14*b1cdbd2cSJim Jagielski  * software distributed under the License is distributed on an
15*b1cdbd2cSJim Jagielski  * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
16*b1cdbd2cSJim Jagielski  * KIND, either express or implied.  See the License for the
17*b1cdbd2cSJim Jagielski  * specific language governing permissions and limitations
18*b1cdbd2cSJim Jagielski  * under the License.
19*b1cdbd2cSJim Jagielski  *
20*b1cdbd2cSJim Jagielski  *************************************************************/
21*b1cdbd2cSJim Jagielski 
22*b1cdbd2cSJim Jagielski 
23*b1cdbd2cSJim Jagielski 
24*b1cdbd2cSJim Jagielski  /**
25*b1cdbd2cSJim Jagielski   *
26*b1cdbd2cSJim Jagielski   *
27*b1cdbd2cSJim Jagielski   *
28*b1cdbd2cSJim Jagielski   *
29*b1cdbd2cSJim Jagielski   * TODO
30*b1cdbd2cSJim Jagielski   * - Add exception throwing when h == NULL
31*b1cdbd2cSJim Jagielski   * - Not init h when implicit constructor is launched
32*b1cdbd2cSJim Jagielski   */
33*b1cdbd2cSJim Jagielski 
34*b1cdbd2cSJim Jagielski // MARKER(update_precomp.py): autogen include statement, do not remove
35*b1cdbd2cSJim Jagielski #include "precompiled_lingucomponent.hxx"
36*b1cdbd2cSJim Jagielski 
37*b1cdbd2cSJim Jagielski #include <string.h>
38*b1cdbd2cSJim Jagielski #include <sstream>
39*b1cdbd2cSJim Jagielski #include <iostream>
40*b1cdbd2cSJim Jagielski 
41*b1cdbd2cSJim Jagielski #include <libtextcat/textcat.h>
42*b1cdbd2cSJim Jagielski #include <libtextcat/common.h>
43*b1cdbd2cSJim Jagielski #include <libtextcat/constants.h>
44*b1cdbd2cSJim Jagielski #include <libtextcat/fingerprint.h>
45*b1cdbd2cSJim Jagielski #include <libtextcat/utf8misc.h>
46*b1cdbd2cSJim Jagielski 
47*b1cdbd2cSJim Jagielski #include <sal/types.h>
48*b1cdbd2cSJim Jagielski 
49*b1cdbd2cSJim Jagielski #include "altstrfunc.hxx"
50*b1cdbd2cSJim Jagielski #include "simpleguesser.hxx"
51*b1cdbd2cSJim Jagielski 
52*b1cdbd2cSJim Jagielski #ifndef _UTF8_
53*b1cdbd2cSJim Jagielski #define _UTF8_
54*b1cdbd2cSJim Jagielski #endif
55*b1cdbd2cSJim Jagielski 
56*b1cdbd2cSJim Jagielski 
57*b1cdbd2cSJim Jagielski using namespace std;
58*b1cdbd2cSJim Jagielski 
59*b1cdbd2cSJim Jagielski 
60*b1cdbd2cSJim Jagielski /**
61*b1cdbd2cSJim Jagielski  * This 3 following structures are from fingerprint.c and textcat.c
62*b1cdbd2cSJim Jagielski  */
63*b1cdbd2cSJim Jagielski 
64*b1cdbd2cSJim Jagielski typedef struct ngram_t {
65*b1cdbd2cSJim Jagielski 
66*b1cdbd2cSJim Jagielski     sint2 rank;
67*b1cdbd2cSJim Jagielski     char str[MAXNGRAMSIZE+1];
68*b1cdbd2cSJim Jagielski 
69*b1cdbd2cSJim Jagielski } ngram_t;
70*b1cdbd2cSJim Jagielski 
71*b1cdbd2cSJim Jagielski typedef struct fp_t {
72*b1cdbd2cSJim Jagielski 
73*b1cdbd2cSJim Jagielski     const char *name;
74*b1cdbd2cSJim Jagielski     ngram_t *fprint;
75*b1cdbd2cSJim Jagielski     uint4 size;
76*b1cdbd2cSJim Jagielski 
77*b1cdbd2cSJim Jagielski } fp_t;
78*b1cdbd2cSJim Jagielski 
79*b1cdbd2cSJim Jagielski typedef struct textcat_t{
80*b1cdbd2cSJim Jagielski 
81*b1cdbd2cSJim Jagielski     void **fprint;
82*b1cdbd2cSJim Jagielski     char *fprint_disable;
83*b1cdbd2cSJim Jagielski     uint4 size;
84*b1cdbd2cSJim Jagielski     uint4 maxsize;
85*b1cdbd2cSJim Jagielski 
86*b1cdbd2cSJim Jagielski     char output[MAXOUTPUTSIZE];
87*b1cdbd2cSJim Jagielski 
88*b1cdbd2cSJim Jagielski } textcat_t;
89*b1cdbd2cSJim Jagielski /** end of the 3 structs */
90*b1cdbd2cSJim Jagielski 
SimpleGuesser()91*b1cdbd2cSJim Jagielski SimpleGuesser::SimpleGuesser()
92*b1cdbd2cSJim Jagielski {
93*b1cdbd2cSJim Jagielski     h = NULL;
94*b1cdbd2cSJim Jagielski }
95*b1cdbd2cSJim Jagielski 
operator =(SimpleGuesser & sg)96*b1cdbd2cSJim Jagielski void SimpleGuesser::operator=(SimpleGuesser& sg){
97*b1cdbd2cSJim Jagielski     if(h){textcat_Done(h);}
98*b1cdbd2cSJim Jagielski     h = sg.h;
99*b1cdbd2cSJim Jagielski }
100*b1cdbd2cSJim Jagielski 
~SimpleGuesser()101*b1cdbd2cSJim Jagielski SimpleGuesser::~SimpleGuesser()
102*b1cdbd2cSJim Jagielski {
103*b1cdbd2cSJim Jagielski     if(h){textcat_Done(h);}
104*b1cdbd2cSJim Jagielski }
105*b1cdbd2cSJim Jagielski 
106*b1cdbd2cSJim Jagielski 
107*b1cdbd2cSJim Jagielski /*!
108*b1cdbd2cSJim Jagielski     \fn SimpleGuesser::GuessLanguage(char* text)
109*b1cdbd2cSJim Jagielski  */
GuessLanguage(char * text)110*b1cdbd2cSJim Jagielski vector<Guess> SimpleGuesser::GuessLanguage(char* text)
111*b1cdbd2cSJim Jagielski {
112*b1cdbd2cSJim Jagielski         vector<Guess> guesses;
113*b1cdbd2cSJim Jagielski 
114*b1cdbd2cSJim Jagielski         if(!h){return guesses;}
115*b1cdbd2cSJim Jagielski 
116*b1cdbd2cSJim Jagielski         //calculate le number of unicode charcters (symbols)
117*b1cdbd2cSJim Jagielski         int len = utfstrlen(text);
118*b1cdbd2cSJim Jagielski 
119*b1cdbd2cSJim Jagielski 	if( len > MAX_STRING_LENGTH_TO_ANALYSE ){len = MAX_STRING_LENGTH_TO_ANALYSE ;}
120*b1cdbd2cSJim Jagielski 
121*b1cdbd2cSJim Jagielski         char *guess_list = textcat_Classify(h, text, len);
122*b1cdbd2cSJim Jagielski 
123*b1cdbd2cSJim Jagielski         if(strcmp(guess_list, _TEXTCAT_RESULT_SHORT) == 0){
124*b1cdbd2cSJim Jagielski             return guesses;
125*b1cdbd2cSJim Jagielski         }
126*b1cdbd2cSJim Jagielski 
127*b1cdbd2cSJim Jagielski         int current_pointer = 0;
128*b1cdbd2cSJim Jagielski 
129*b1cdbd2cSJim Jagielski         for(int i = 0; guess_list[current_pointer] != '\0'; i++)
130*b1cdbd2cSJim Jagielski         {
131*b1cdbd2cSJim Jagielski             while(guess_list[current_pointer] != GUESS_SEPARATOR_OPEN && guess_list[current_pointer] != '\0'){
132*b1cdbd2cSJim Jagielski                 current_pointer++;
133*b1cdbd2cSJim Jagielski             }
134*b1cdbd2cSJim Jagielski             if(guess_list[current_pointer] != '\0')
135*b1cdbd2cSJim Jagielski             {
136*b1cdbd2cSJim Jagielski                 Guess g((char*)(guess_list + current_pointer));
137*b1cdbd2cSJim Jagielski 
138*b1cdbd2cSJim Jagielski                 guesses.push_back(g);
139*b1cdbd2cSJim Jagielski 
140*b1cdbd2cSJim Jagielski                 current_pointer++;
141*b1cdbd2cSJim Jagielski             }
142*b1cdbd2cSJim Jagielski         }
143*b1cdbd2cSJim Jagielski 
144*b1cdbd2cSJim Jagielski 	return guesses;
145*b1cdbd2cSJim Jagielski }
146*b1cdbd2cSJim Jagielski 
147*b1cdbd2cSJim Jagielski /*!
148*b1cdbd2cSJim Jagielski     \fn SimpleGuesser::GuessPrimaryLanguage(char* text)
149*b1cdbd2cSJim Jagielski  */
GuessPrimaryLanguage(char * text)150*b1cdbd2cSJim Jagielski Guess SimpleGuesser::GuessPrimaryLanguage(char* text)
151*b1cdbd2cSJim Jagielski {
152*b1cdbd2cSJim Jagielski     vector<Guess> ret = GuessLanguage(text);
153*b1cdbd2cSJim Jagielski     if(ret.size() > 0){
154*b1cdbd2cSJim Jagielski         return GuessLanguage(text)[0];
155*b1cdbd2cSJim Jagielski     }
156*b1cdbd2cSJim Jagielski     else{
157*b1cdbd2cSJim Jagielski         return Guess();
158*b1cdbd2cSJim Jagielski     }
159*b1cdbd2cSJim Jagielski }
160*b1cdbd2cSJim Jagielski /**
161*b1cdbd2cSJim Jagielski  * Is used to know wich language is available, unavailable or both
162*b1cdbd2cSJim Jagielski  * when mask = 0xF0, return only Available
163*b1cdbd2cSJim Jagielski  * when mask = 0x0F, return only Unavailable
164*b1cdbd2cSJim Jagielski  * when mask = 0xFF, return both Available and Unavailable
165*b1cdbd2cSJim Jagielski  */
GetManagedLanguages(const char mask)166*b1cdbd2cSJim Jagielski vector<Guess> SimpleGuesser::GetManagedLanguages(const char mask)
167*b1cdbd2cSJim Jagielski {
168*b1cdbd2cSJim Jagielski     size_t i;
169*b1cdbd2cSJim Jagielski     textcat_t *tables = (textcat_t*)h;
170*b1cdbd2cSJim Jagielski 
171*b1cdbd2cSJim Jagielski     vector<Guess> lang;
172*b1cdbd2cSJim Jagielski     if(!h){return lang;}
173*b1cdbd2cSJim Jagielski 
174*b1cdbd2cSJim Jagielski     for (i=0; i<tables->size; i++) {
175*b1cdbd2cSJim Jagielski         if(tables->fprint_disable[i] & mask){
176*b1cdbd2cSJim Jagielski             string langStr = "[";
177*b1cdbd2cSJim Jagielski             langStr += (char*)fp_Name(tables->fprint[i]);
178*b1cdbd2cSJim Jagielski             Guess g( (char *)langStr.c_str());
179*b1cdbd2cSJim Jagielski             lang.push_back(g);
180*b1cdbd2cSJim Jagielski         }
181*b1cdbd2cSJim Jagielski     }
182*b1cdbd2cSJim Jagielski 
183*b1cdbd2cSJim Jagielski     return lang;
184*b1cdbd2cSJim Jagielski }
185*b1cdbd2cSJim Jagielski 
GetAvailableLanguages()186*b1cdbd2cSJim Jagielski vector<Guess> SimpleGuesser::GetAvailableLanguages(){
187*b1cdbd2cSJim Jagielski     return GetManagedLanguages( sal::static_int_cast< char >( 0xF0 ) );
188*b1cdbd2cSJim Jagielski }
189*b1cdbd2cSJim Jagielski 
GetUnavailableLanguages()190*b1cdbd2cSJim Jagielski vector<Guess> SimpleGuesser::GetUnavailableLanguages(){
191*b1cdbd2cSJim Jagielski     return GetManagedLanguages( sal::static_int_cast< char >( 0x0F ));
192*b1cdbd2cSJim Jagielski }
193*b1cdbd2cSJim Jagielski 
GetAllManagedLanguages()194*b1cdbd2cSJim Jagielski vector<Guess> SimpleGuesser::GetAllManagedLanguages(){
195*b1cdbd2cSJim Jagielski     return GetManagedLanguages( sal::static_int_cast< char >( 0xFF ));
196*b1cdbd2cSJim Jagielski }
197*b1cdbd2cSJim Jagielski 
XableLanguage(string lang,char mask)198*b1cdbd2cSJim Jagielski void SimpleGuesser::XableLanguage(string lang, char mask){
199*b1cdbd2cSJim Jagielski     size_t i;
200*b1cdbd2cSJim Jagielski     textcat_t *tables = (textcat_t*)h;
201*b1cdbd2cSJim Jagielski 
202*b1cdbd2cSJim Jagielski     if(!h){return;}
203*b1cdbd2cSJim Jagielski 
204*b1cdbd2cSJim Jagielski     for (i=0; i<tables->size; i++) {
205*b1cdbd2cSJim Jagielski         string language(fp_Name(tables->fprint[i]));
206*b1cdbd2cSJim Jagielski         if(start(language,lang) == 0){
207*b1cdbd2cSJim Jagielski             //cout << language << endl;
208*b1cdbd2cSJim Jagielski             tables->fprint_disable[i] = mask;
209*b1cdbd2cSJim Jagielski             //continue;
210*b1cdbd2cSJim Jagielski         }
211*b1cdbd2cSJim Jagielski     }
212*b1cdbd2cSJim Jagielski }
213*b1cdbd2cSJim Jagielski 
EnableLanguage(string lang)214*b1cdbd2cSJim Jagielski void SimpleGuesser::EnableLanguage(string lang){
215*b1cdbd2cSJim Jagielski     XableLanguage(lang,  sal::static_int_cast< char >( 0xF0 ));
216*b1cdbd2cSJim Jagielski }
217*b1cdbd2cSJim Jagielski 
DisableLanguage(string lang)218*b1cdbd2cSJim Jagielski void SimpleGuesser::DisableLanguage(string lang){
219*b1cdbd2cSJim Jagielski     XableLanguage(lang,  sal::static_int_cast< char >( 0x0F ));
220*b1cdbd2cSJim Jagielski }
221*b1cdbd2cSJim Jagielski 
222*b1cdbd2cSJim Jagielski /**
223*b1cdbd2cSJim Jagielski *
224*b1cdbd2cSJim Jagielski */
SetDBPath(const char * path,const char * prefix)225*b1cdbd2cSJim Jagielski void SimpleGuesser::SetDBPath(const char* path, const char* prefix){
226*b1cdbd2cSJim Jagielski     if(h){
227*b1cdbd2cSJim Jagielski         textcat_Done(h);
228*b1cdbd2cSJim Jagielski     }
229*b1cdbd2cSJim Jagielski     h = special_textcat_Init(path, prefix);
230*b1cdbd2cSJim Jagielski }
231