Tokenizer

A very fast and low memory usage C++ tokenizer that breaks an input string into a list of tokens looking at tabs, spaces, new lines, and detects special tokens like numbers, prces, personal noms, emails, lexemes, etc. It allows to specify delimeters, detect special cases and change to lowercase the tokens. It uses an automaton to detect the special tokens.

Note: The automaton is design to detect this specifics examples. To detect more cases not contemplated on this version, modify the automaton matriz: const unsigned char Tokenizador::TP_AUTOMATA[][]

How to use it

There are test cases on src/. Here is an example:

#include <iostream> 
#include <string>
#include <list> 
#include "tokenizador.h"

using namespace std;

void imprimirListaSTL(const list<string>& cadena)
{
        list<string>::const_iterator itCadena;
        for(itCadena=cadena.begin();itCadena!=cadena.end();itCadena++)
        {
                cout << (*itCadena) << ", ";
        }
        cout << endl;
}

int main(void)
{
    bool spcialCases = true, lowercaseTokens = true;

    list<string> lt1;

    // Delimeters: []# 
    // Detect special cases: True
    // Output in lowercase: True
    Tokenizador a("[]# ", spcialCases, lowercaseTokens);
    a.Tokenizar("pal1 [email protected]@cd p1 p2", tokens);
    imprimirListaSTL(tokens);
    
    // Output
    //[pal1, cat, iuii.ua.es, cd, p1, p2]

    
}

What I Learned

How to develop automatons for pattern recognition.
How to optimize C++ memory.
How to optimize C++ execution times.
Design algorithms.
Minimize automatons nodes.

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
.vscode		.vscode
borrar		borrar
include		include
lib		lib
pruebas		pruebas
src		src
.gitignore		.gitignore
DiagramaAutomata.drawio		DiagramaAutomata.drawio
LICENSE.md		LICENSE.md
Materiales Tokenizador.zip		Materiales Tokenizador.zip
README.md		README.md
cachegrind.out.32214		cachegrind.out.32214
corrigeAlumno.sh		corrigeAlumno.sh
corrigeUno.res		corrigeUno.res
main copy.cpp		main copy.cpp
main.cpp		main.cpp
main.s		main.s
makefile		makefile
memory		memory
memory.cpp		memory.cpp
tokenizador.s		tokenizador.s

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Tokenizer

How to use it

What I Learned

About

Releases

Packages

Languages

License

ander-db/Tokenizer-C-Plus-Plus

Folders and files

Latest commit

History

Repository files navigation

Tokenizer

How to use it

What I Learned

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages