tnblib/TnbRegularExpression_8h_source.html

#pragma once

#include "TnbStrVector.h"


//T-TestCaseコードカバレッジDisable

#pragma comment(user,"T-Coverage Disable")


#ifndef _TnbDOXYGEN //Document作成用シンボル

#if 0

#define _REGEX_TRACE0(S)            TRACE0(S)

#define _REGEX_TRACE1(S,P1)         TRACE1(S, P1)

#define _REGEX_TRACE2(S,P1,P2)      TRACE2(S,P1,P2)

#define _REGEX_TRACE3(S,P1,P2,P3)   TRACE3(S,P1,P2,P3)

#else

#define _REGEX_TRACE0(S)

#define _REGEX_TRACE1(S,P1)

#define _REGEX_TRACE2(S,P1,P2)

#define _REGEX_TRACE3(S,P1,P2,P3)

#endif

#endif // _TnbDOXYGEN


//TNB Library

namespace TNB

{


template<typename TYP, typename ITE = const TYP*>

class CRegularExpressionT

{

public:


    enum EOption

    {

        IGNORECASE = _BIT(0),

//      MULTILINE = _BIT(1),        ///< 「複数行モードを有効」オプション

    };


private:


    #ifndef _TnbDOXYGEN //Document作成用シンボル


    class CAbstractChecker

    {

    public:

        struct TPairIterator

        {

            ITE     top;

            ITE     end;

            bool    boValidEnd;

            TPairIterator(ITE s = ITE(), ITE e = ITE(), bool r = false)

                : top(s), end(e), boValidEnd(r)

            {

            }

            void SetEnd(ITE e)

            {

                end = e;

                boValidEnd = true;

            }

        };

        struct TStaticParam

        {

            ITE                     end;

            CVectorT<TPairIterator> groupIterators;

            ITE                     tempEnd;

            ITE                     outsizeEnd;

            DWORD                   option;

            TStaticParam(void) : end(ITE()), tempEnd(ITE()), option(0)

            {

            }

            size_t GetSize(void) const

            {

                return groupIterators.GetSize();

            }

            TPairIterator At(INDEX index) const

            {

                const TPairIterator& ii = groupIterators.At(index);

                TPairIterator r((index == 0 && outsizeEnd != ITE()) ? outsizeEnd : ii.top);

                r.SetEnd(ii.boValidEnd ? ii.end : tempEnd);

                return r;

            }

            CVectorT< CStrT<TYP> > ToStrings(void) const

            {

                CVectorT< CStrT<TYP> > vs;

                loop ( i, GetSize() )

                {

                    const TPairIterator& ii = At(i);

                    vs.Add(CStrT<TYP>::FromIterator(ii.top, ii.end));

                }

                return vs;

            }

        };

        struct TParam

        {

            ITE             cur;

            ITE             top;

            TStaticParam*   pt;

            TParam(ITE c, ITE t, ITE e, TStaticParam* p) : cur(c), top(t), pt(p)

            {

                pt->end = e;

                pt->tempEnd = e;

                pt->outsizeEnd = ITE();

            }

            bool IsTerminate(void) const

            {

                return (cur == pt->end) ? true : (*cur == 0);

            }

            size_t GetWord(WORD& _ch)

            {

                if ( IsTerminate() ){ return INVALID_SIZE; }

                WORD c = *cur;

                size_t l = STRLIB::GetCharSize(*cur);

                if ( l == 2 )

                {

                    ASSERT( sizeof(TYP) == 1 );

                    cur++;

                    if ( IsTerminate() ){ return INVALID_SIZE; }

                    c = static_cast<WORD>(((c & 0xFF) << 8) | ((*cur) & 0xFF));

                }

                _ch = c;

                return l;

            }

            void StepCur(size_t l)

            {

                if ( l != INVALID_SIZE )

                {

                    loop ( i, l )

                    {

                        ASSERTLIB( cur != pt->end );

                        cur++;

                    }

                }

            }

            bool EqualChar(TYP c1, TYP c2)

            {

                if ( (pt->option & IGNORECASE) != 0 )

                {

                    if ( c1 >= 'A' && c1 <= 'Z' ) { c1 |= 0x20; }

                    if ( c2 >= 'A' && c2 <= 'Z' ) { c2 |= 0x20; }

                }

                return c1 == c2;

            }

        };

        virtual ~CAbstractChecker(void){}

        virtual size_t Check(TParam ip) const = 0;

    };


    typedef CPointerHandleT<CAbstractChecker>   CCheckerPtr;


    typedef CVectorT<CCheckerPtr>       CCheckerPtrsVector;


    //================================================


    class CEqualChar : public CAbstractChecker

    {

        WORD    m_char;

    public:

        CEqualChar(WORD c) : m_char(c)

        {

        }

        virtual size_t Check(TParam ip) const

        {

            _REGEX_TRACE1( "正規表現 比較 ; EqualChar [0x%X]\n", m_char );

            WORD c;

            size_t l = ip.GetWord(c);

            if ( l == INVALID_SIZE ){ return INVALID_SIZE; }

            bool r = ip.EqualChar(static_cast<TYP>(c), static_cast<TYP>(m_char));

            return r ? l : INVALID_SIZE;

        }

    };


    class CRangeChar : public CAbstractChecker

    {

        WORD    m_top;

        WORD    m_bottom;

        bool    m_reverse;

    public:

        CRangeChar(WORD top, WORD bottom, bool boIsReverse = false)

            : m_top(top), m_bottom(bottom), m_reverse(boIsReverse)

        {

            if ( m_top > m_bottom ) { Swap(m_top, m_bottom); }

        }

        virtual size_t Check(TParam ip) const

        {

            _REGEX_TRACE3( "正規表現 比較 ; RangeChar ['%c' - '%c' (%d)]\n", m_top, m_bottom, m_reverse );

            WORD c;

            size_t l = ip.GetWord(c);

            if ( l == INVALID_SIZE ){ return INVALID_SIZE; }

            if ( (ip.pt->option & IGNORECASE) != 0 )

            {

                if ( (c >= 'a' && c <= 'z') || (c >= 'A' && c <= 'Z') )

                {

                    c |= 0x20;

                    return ((c < (m_top|0x20) || c > (m_bottom|0x20)) ^ m_reverse) ? INVALID_SIZE : l;

                }

            }

            return ((c < m_top || c > m_bottom) ^ m_reverse) ? INVALID_SIZE : l;

        }

    };


    class CAnythingChar : public CAbstractChecker

    {

    public:

        virtual size_t Check(TParam ip) const

        {

            _REGEX_TRACE0( "正規表現 比較 ; AnythingChar\n" );

            return ip.IsTerminate() ? INVALID_SIZE : (STRLIB::GetCharSize(*ip.cur));

        }

    };


    class CTop : public CAbstractChecker

    {

    public:

        virtual size_t Check(TParam ip) const

        {

            _REGEX_TRACE0( "正規表現 比較 ; Top\n" );

            return (ip.cur == ip.top) ? 0 : INVALID_SIZE;

        }

    };


    class CEnd : public CAbstractChecker

    {

    public:

        virtual size_t Check(TParam ip) const

        {

            _REGEX_TRACE0( "正規表現 比較 ; End\n" );

            return ip.IsTerminate() ? 0 : INVALID_SIZE;

        }

    };


    class CFrontWord : public CAbstractChecker

    {

        INDEX       m_index;

    public:

        CFrontWord(INDEX i) : m_index(i)

        {

        }

        virtual size_t Check(TParam ip) const

        {

            _REGEX_TRACE1( "正規表現 比較 ; FrontWord (index = %d)\n", m_index );

            if ( ip.pt->groupIterators.GetSize() <= m_index )

            {

                return INVALID_SIZE;

            }

            const TPairIterator& ii = ip.pt->groupIterators.At(m_index);

            ITE is = ii.top;

            ITE ie = ii.boValidEnd ? ii.end : ip.pt->tempEnd;

//          if ( ! ii.boValidEnd )

//          {

//              CStrT<TYP> s = CStrT<TYP>::FromIterator(is, ie);

//              TRACE2( "[%s] [%s]\n", CStr(s), CStr(ip.cur) );

//          }

            size_t r = 0;

            while ( is != ie )

            {

                if ( *is == 0 ) { break; }

                if ( ip.cur == ip.pt->end ) { return INVALID_SIZE; }

                if ( ! ip.EqualChar(*is++, *ip.cur++) ){ return INVALID_SIZE; }

                r++;

            }

            return r;

        }

    };


    //================================================


    class CGroupChecker : public CAbstractChecker

    {

    public:

        enum EType

        {

            ET_Non,

            ET_RefGroup,

            ET_NoRefGroup,

            ET_AfterEqu,

            ET_AfterNeq,

            ET_BeforeEqu,

            ET_BeforeNeq,

        };

    private:

        EType   m_type;

        CCheckerPtr m_checker;

    public:

        CGroupChecker(CCheckerPtr cp, EType y = ET_RefGroup) : m_checker(cp), m_type(y)

        {

            ASSERTLIB( y != ET_Non );

        }

        virtual size_t Check(TParam ip) const

        {

            _REGEX_TRACE1( "正規表現 比較 ; GroupChecker (%d)\n", m_type );

            if ( m_type == ET_RefGroup )    // (regex) グループ（前方参照あり）

            {

                INDEX insertIndex = ip.pt->groupIterators.GetSize();

                ip.pt->groupIterators.Add(TPairIterator(ip.cur, ip.pt->end));   //ダミーデータを追加しておく。

                size_t l = m_checker->Check(ip);

                if ( l != INVALID_SIZE )

                {

                    ip.StepCur(l);

                    ip.pt->groupIterators.Ref(insertIndex).SetEnd(ip.cur);

                }

                return l;

            }

            size_t l = m_checker->Check(ip);

            switch ( m_type )

            {

            case ET_RefGroup:   // (regex) グループ（前方参照あり）

                ip.StepCur(l);

                break;

            case ET_NoRefGroup: // (?:regex) グループ（前方参照なし）

                ip.StepCur(l);

                break;

            case ET_AfterEqu:   // regex(?=regex) 肯定先読み

                l = (l != INVALID_SIZE) ? 0 : INVALID_SIZE;

                break;

            case ET_AfterNeq:   // regex(?!regex) 否定先読み

                l = (l == INVALID_SIZE) ? 0 : INVALID_SIZE;

                break;

            case ET_BeforeEqu:  // (?<=regex)regex 肯定後読み

            case ET_BeforeNeq:  // (?<!regex)regex 否定後読み

                if ( ip.pt->outsizeEnd != ITE() )

                {

                    l = INVALID_SIZE;

                }

                else

                {

                    if ( l != INVALID_SIZE )

                    {

                        ip.StepCur(l);

                        ip.pt->outsizeEnd = ip.cur;

                    }

                    if ( m_type == ET_BeforeNeq )   // (?<!regex)regex 否定後読み

                    {

                        l = (l == INVALID_SIZE) ? 0 : INVALID_SIZE;

                    }

                }

                break;

            default:

                ASSERTLIB( false );

                break;

            }

            return l;

        }

    };


    class CFindChecker : public CAbstractChecker

    {

        CCheckerPtr     m_loopChecker;

        CCheckerPtr     m_markChecker;

        int             m_min;

        int             m_max;

        bool            m_isMini;

    public:

        CFindChecker(CCheckerPtr loopChk, int min, int max, bool mini)

            : m_loopChecker(loopChk), m_min(min), m_max(max), m_isMini(mini)

        {

        }

        void SetMarkChecker(CCheckerPtr cp)

        {

            ASSERTLIB( this != cp.operator->() );

            m_markChecker = cp;

        }

        virtual size_t Check(TParam ip) const

        {

            CVectorT<TPairIterator> bakGrpItes;

            ITE bakIte = ip.pt->tempEnd;

            size_t ns = ip.pt->groupIterators.GetSize();

            ip.pt->tempEnd = ip.cur;

            if ( m_markChecker.IsNull() )

            {

                _REGEX_TRACE2( "正規表現 比較 ; FindChecker(%d 〜 %d) 「ENDかMAXまで」\n", m_min, m_max);

                INDEX findingIndex = 0;

                int foundCount = 0;

                while ( true )

                {

                    if ( m_max >= 0 && foundCount == m_max ) { break; }

                    if ( m_isMini && m_min <= foundCount ) { break; }

                    size_t l = m_loopChecker->Check(ip);

                    if ( ns < ip.pt->groupIterators.GetSize() )

                    {

                        if ( l != INVALID_SIZE )

                        {

                            bakGrpItes = ip.pt->groupIterators;

                        }

                        ip.pt->groupIterators.SetSize(ns);

                    }

                    if ( l == INVALID_SIZE ) { break; }

                    ip.StepCur(l);

                    ip.pt->tempEnd = ip.cur;

                    foundCount++;

                    findingIndex += l;

                }

                ip.pt->tempEnd = bakIte;

                if ( ! bakGrpItes.IsEmpty() )

                {

                    ip.pt->groupIterators = bakGrpItes;

                }

                return (foundCount < m_min) ? INVALID_SIZE : findingIndex;

            }

            _REGEX_TRACE2( "正規表現 比較 ; FindChecker(%d 〜 %d) 「次一致」\n", m_min, m_max);

            INDEX findingIndex = 0;

            INDEX foundIndex = INVALID_INDEX;

            int foundCount = 0;

            while ( ! ip.IsTerminate() )

            {

                if ( foundCount >= m_min )

                {

                    size_t l = m_markChecker->Check(ip);

                    if ( l != INVALID_SIZE )

                    {

                        foundIndex = findingIndex;

                        if ( m_isMini ) { break; }

                    }

                    ns = ip.pt->groupIterators.GetSize();

                }

                if ( m_max >= 0 && foundCount == m_max ) { break; }

                size_t l = m_loopChecker->Check(ip);

                if ( ns < ip.pt->groupIterators.GetSize() )

                {

                    if ( l != INVALID_SIZE )

                    {

                        bakGrpItes = ip.pt->groupIterators;

                    }

                    ip.pt->groupIterators.SetSize(ns);

                }

                if ( l == INVALID_SIZE ) { break; }

                ip.StepCur(l);

                ip.pt->tempEnd = ip.cur;

                foundCount++;

                findingIndex += l;

            }

            ip.pt->tempEnd = bakIte;

            if ( ! bakGrpItes.IsEmpty() )

            {

                ip.pt->groupIterators = bakGrpItes;

            }

            return (foundCount < m_min) ? INVALID_SIZE : foundIndex;

        }

    };


    class CAnyChecker : public CAbstractChecker

    {

    protected:

        CCheckerPtrsVector  m_checkers;

    public:

        virtual bool IsMeaningless(void) const

        {

            return m_checkers.GetSize() == 1;

        }

        virtual CCheckerPtr& Top(void)

        {

            return m_checkers[0];

        }

        virtual void Add(CCheckerPtr chk)

        {

            m_checkers.Add(chk);

        }

        virtual size_t Check(TParam ip) const

        {

            _REGEX_TRACE1( "正規表現 比較 ; AnyChecker(%d)\n", m_checkers.GetSize() );

            size_t r = INVALID_SIZE;

            loop ( i, m_checkers.GetSize() )

            {

                size_t l = m_checkers[i]->Check(ip);

                if ( l != INVALID_SIZE )

                {

                    if ( r == INVALID_SIZE ) { r = 0; }

                    if ( r < l ) { r = l; }

                }

            }

            return r;

        }

    };


    class CNotAnyChecker : public CAnyChecker

    {

    public:

        virtual bool IsMeaningless(void) const

        {

            return false;   //このクラスは絶対「意味がある」

        }

        virtual size_t Check(TParam ip) const

        {

            _REGEX_TRACE1( "正規表現 比較 ; NotAnyChecker(%d)\n", m_checkers.GetSize() );

            if ( ip.IsTerminate() ){ return INVALID_SIZE; }

            loop ( i, m_checkers.GetSize() )

            {

                size_t l = m_checkers[i]->Check(ip);

                if ( l != INVALID_SIZE ) { return INVALID_SIZE; }

            }

            return STRLIB::GetCharSize(*ip.cur);

        }

    };


    class CBesidesChecker : public CAnyChecker

    {

    public:

        virtual size_t Check(TParam ip) const

        {

            _REGEX_TRACE1( "正規表現 比較 ; BesidesChecker(%d)\n", m_checkers.GetSize() );

            size_t r = INVALID_SIZE;

            loop ( i, m_checkers.GetSize() )

            {

                size_t l = m_checkers[i]->Check(ip);

                if ( l == INVALID_SIZE ) { return INVALID_SIZE; }

                if ( r == INVALID_SIZE )

                {

                    r = l;

                }

                else if ( r != l )

                {

                    return INVALID_SIZE;

                }

            }

            ip.StepCur(r);

            return r;

        }

    };


    class CLineChecker : public CAnyChecker

    {

    public:

        virtual size_t Check(TParam ip) const

        {

            _REGEX_TRACE1( "正規表現 比較 ; LineChecker(%d)\n", m_checkers.GetSize() );

            ASSERTLIB( m_checkers.GetSize() != 0 );

            size_t r = 0;   //一致したトータル長さ

            loop ( i, m_checkers.GetSize() )

            {

                size_t l = m_checkers[i]->Check(ip);

                if ( l == INVALID_SIZE ) { return INVALID_SIZE; }

                ip.StepCur(l);

                r += l;

            }

            return r;

        }

    };


    #endif // _TnbDOXYGEN


    //================================================


    CCheckerPtr     m_root;

    CStrT<TYP>      m_base;

    CFindChecker*   m_pLastFindChecker;

    DWORD           m_option;


    void m_RemoveAll(void)

    {

        m_root.Null();

        m_base.Empty();

        m_pLastFindChecker = NULL;

    }


    /*

     * _lpsz は{ の次の文字を指している

     */

    bool m_SubNum(int& _r, const WORD*& _lpsz)

    {

        _r = -1;

        const WORD* P =_lpsz;

        while( *P >= '0' && *P <= '9' )

        {

            if ( _r < 0 ) { _r = 0; }

            _r *= 10;

            _r += (*P - '0');

            P++;

        }

        if ( _r >= 0 )

        {

            _lpsz = P;

            return true;

        }

        return false;

    }


    /*

     * _lpsz は{ の文字を指している

     *  _checker には繰り返すチェッカーが入っている。

     */

    bool m_SubCnt(int& _min, int& _max, const WORD*& _lpsz)

    {

        const WORD* P =_lpsz;

        int r;

        if ( *P++ == '{' )

        {

            if ( m_SubNum(r, P) )

            {

                if ( *P != ',' )

                {

                    _min = r;

                    _max = r;

                }

                else

                {

                    _min = r;

                    P++;

                    if ( m_SubNum(r, P) )

                    {

                        _max = r;

                    }

                }

                if ( *P == '}' )

                {

                    _lpsz = P + 1;

                    return true;

                }

            }

        }

        return false;

    }


    CCheckerPtr m_ChkChecker(CAnyChecker* P)

    {

        if ( P->IsMeaningless() )

        {

            CCheckerPtr c = P->Top();

            delete P;

            return c;

        }

        return P;

    }


    /*

     * isAny が false なら

     *      " " , ( ) 内のチェック用

     *      @note ”か ) か \0 までをチェック

     * isAny が true なら

     *      [ ]内のチェック用

     *      @note ]までをチェック

     *

     *  @param _lpsz ”か（か [ の次の文字ポインタ。成功時、終端の文字ポインタになっています。

     */

    bool m_Sub(CCheckerPtr& _checker, const WORD*& _lpsz, bool isAny)

    {

        CFindChecker* pLastFindChecker = m_pLastFindChecker;

        m_pLastFindChecker = NULL;

        CAnyChecker* pCheckers = NULL;

        const WORD* P = _lpsz;

        if ( isAny )

        {

            if ( *P == '^' )

            {

                P++;

                pCheckers = new CNotAnyChecker();

            }

            else

            {

                pCheckers = new CAnyChecker();

            }

        }

        else

        {

            pCheckers = new CLineChecker();

        }

        bool isError = false;

        bool isFirst = true;

        WORD rangeChar = 0;

        while ( ! isError )

        {

            WORD c = *P++;

            CCheckerPtr chk;

            CGroupChecker::EType groupType = CGroupChecker::ET_Non;

            CFindChecker* pLastFind = NULL;

            if ( ! isAny )

            {

                //Any以外でのみ有効なもの

                // [〜]ないではでは無効なもの

                switch ( c )

                {

                case '.':

                    chk = new CAnythingChar();

                    break;

                case '(':

                    groupType = CGroupChecker::ET_RefGroup;

                    if ( *P == '?' )

                    {

                        if ( P[1] == ':' )

                        {

                            groupType = CGroupChecker::ET_NoRefGroup;

                            P += 2;

                        }

                        else if ( P[1] == '=' )

                        {

                            groupType = CGroupChecker::ET_AfterEqu;

                            P += 2;

                        }

                        else if ( P[1] == '!' )

                        {

                            groupType = CGroupChecker::ET_AfterNeq;

                            P += 2;

                        }

                        else if ( P[1] == '<' && P[2] == '=' )

                        {

                            groupType = CGroupChecker::ET_BeforeEqu;

                            P += 3;

                        }

                        else if ( P[1] == '<' && P[2] == '!' )

                        {

                            groupType = CGroupChecker::ET_BeforeNeq;

                            P += 3;

                        }

                    }

                    if ( ! m_Sub(chk, P, false) || *P != ')' )

                    {

                        groupType = CGroupChecker::ET_Non;

                        isError = true;

                        break;

                    }

                    P++;

                    pLastFind = m_pLastFindChecker;

                    m_pLastFindChecker = NULL;

                    break;

                case ')':

                    _checker = m_ChkChecker(pCheckers);

                    if ( pLastFindChecker != NULL )

                    {

                        pLastFindChecker->SetMarkChecker(_checker);

                    }

                    _lpsz = P - 1;

                    return true;

                case '|':

                    {

                        CFindChecker* pCkBack = m_pLastFindChecker;

                        m_pLastFindChecker = NULL;

                        CCheckerPtr cp;

                        if ( m_Sub(cp, P, false) && (*P == 0 || *P == ')') )

                        {

                            m_pLastFindChecker = pCkBack;

                            CAnyChecker* a = new CAnyChecker();

                            a->Add(m_ChkChecker(pCheckers));

                            a->Add(cp);

                            _checker = a;

                            if ( pLastFindChecker != NULL )

                            {

                                pLastFindChecker->SetMarkChecker(_checker);

                            }

                            _lpsz = P;

                            return true;

                        }

                    }

                    isError = true;

                    break;

                case '^':

                    if ( isFirst )

                    {

                        chk = new CTop();

                    }

                    break;

                case '$':

                    if ( *P == 0 )

                    {

                        chk = new CEnd();

                    }

                    break;

                default:

                    break;

                }

            }

            if ( isError ) { break; }

            //--

            if ( chk.IsNull() )

            {

                switch ( c )

                {

                case '[':

                    if ( isFirst && isAny )

                    {

                        ;

                    }

                    else if ( ! m_Sub(chk, P, true) || *P != ']' )

                    {

                        isError = true;

                    }

                    else

                    {

                        P++;

                        pLastFind = m_pLastFindChecker;

                        m_pLastFindChecker = NULL;

                    }

                    break;

                case ']':

                    if ( isFirst && isAny )

                    {

                        break;

                    }

                    _checker = m_ChkChecker(pCheckers);

                    if ( pLastFindChecker != NULL )

                    {

                        pLastFindChecker->SetMarkChecker(_checker);

                    }

                    _lpsz = P - 1;

                    return true;

                case 0:

                    _checker = m_ChkChecker(pCheckers);

                    if ( pLastFindChecker != NULL )

                    {

                        pLastFindChecker->SetMarkChecker(_checker);

                    }

                    _lpsz = P - 1;

                    return true;

                case '&':

                    if ( isAny && *P == '&' )

                    {

                        P++;

                        CFindChecker* pCkBack = m_pLastFindChecker;

                        m_pLastFindChecker = NULL;

                        CCheckerPtr cp;

                        if ( m_Sub(cp, P, false) && *P == ']' )

                        {

                            m_pLastFindChecker = pCkBack;

                            CAnyChecker* a = new CBesidesChecker();

                            a->Add(m_ChkChecker(pCheckers));

                            a->Add(cp);

                            _checker = a;

                            if ( pLastFindChecker != NULL )

                            {

                                pLastFindChecker->SetMarkChecker(_checker);

                            }

                            _lpsz = P;

                            return true;

                        }

                        isError = true;

                    }

                    break;

                case '\\':

                    ASSERTLIB( chk.IsNull() );

                    c = *P++;

                    switch ( c )

                    {

                    case 'd':   // 数字([0-9])

                    case 'D':   //  数字以外([~0-9])

                        chk = new CRangeChar('0', '9', (c == 'D'));

                        break;

                    case 's':   //  空白(\t\n\x0B\f\r)                ※全角の含む？

                    case 'S':   //  空白以外([~\s])

                        {

                            CAnyChecker* pAny = (c == 's') ? new CAnyChecker() : new CNotAnyChecker();

                            const char ap[] = { ' ', '\t', '\n', '\x0B', '\f', '\r' };

                            loop ( i, countof(ap) )

                            {

                                pAny->Add(new CEqualChar(ap[i]));

                            }

                            chk = pAny;

                        }

                        break;

                    case 'w':   //  単語([a-zA-Z0-9_])

                    case 'W':   //  単語以外([~\W])

                        {

                            CAnyChecker* pAny = (c == 'w') ? new CAnyChecker() : new CNotAnyChecker();

                            pAny->Add(new CRangeChar('a', 'z'));

                            pAny->Add(new CRangeChar('A', 'Z'));

                            pAny->Add(new CRangeChar('0', '9'));

                            pAny->Add(new CEqualChar('_'));

                            chk = pAny;

                        }

                        break;

                    default:

                        P -= 2;

                        int r = STRLIB::EscCharToInt(P);

                        if ( r >= 0 )

                        {

                            c = static_cast<WORD>(r);

                        }

                        else

                        {

                            P += 2;

                            if ( c >= '0' && c <= '9' )

                            {

                                chk = new CFrontWord(c - '0');

                            }

                        }

                        break;

                    }

                    break;

                default:

                    break;

                }

            }

            if ( isError ) { break; }

            //--

            if ( chk.IsNull() )

            {

                if ( *P == '-' )

                {

                    P++;

                    WORD d = *P++;

                    if ( d == '\\' )

                    {

                        --P;

                        int r = STRLIB::EscCharToInt(P);

                        if ( r >= 0 )

                        {

                            d = static_cast<WORD>(r);

                        }

                        else

                        {

                            isError = true;

                        }

                    }

                    chk = new CRangeChar(c, d);

                }

                else

                {

                    chk = new CEqualChar(c);

                }

            }

            if ( isError ) { break; }

            //--

            if ( ! chk.IsNull() )

            {

                if ( rangeChar != 0 )

                {

                    isError = true;

                }

                else if ( ! isAny )

                {

                    int min = -1;

                    int max = -1;

                    switch ( *P )

                    {

                    case '*': //0個以上

                        min = 0;

                        P++;

                        break;

                    case '+': //1個以上

                        min = 1;

                        P++;

                        break;

                    case '?': //0個か1個

                        min = 0;

                        max = 1;

                        P++;

                        break;

                    case '{': // {a} a個のならび、{a,} a個以上、{a,b} a個〜b個。

                        if ( ! m_SubCnt(min, max, P) )

                        {

                            isError = true;

                            min = -1; //無駄な処理しないように

                        }

                        break;

                    default:

                        break;

                    }

                    if ( min >= 0 )

                    {

                        bool isMini = false;

                        if ( *P == '?' )

                        {

                            P++;

                            isMini = true;

                        }

                        if ( groupType != CGroupChecker::ET_Non )

                        {

                            chk = new CGroupChecker(chk, groupType);

                            groupType = CGroupChecker::ET_Non;

                        }

                        pLastFind = new CFindChecker(chk, min, max, isMini);

                        chk = pLastFind;

                    }

                }

                if ( ! chk.IsNull() )

                {

                    if ( groupType != CGroupChecker::ET_Non )

                    {

                        chk = new CGroupChecker(chk, groupType);

                        groupType = CGroupChecker::ET_Non;

                    }

                    if ( m_pLastFindChecker != NULL )

                    {

                        m_pLastFindChecker->SetMarkChecker(chk);

                    }

                    m_pLastFindChecker = pLastFind;

                    pLastFind = NULL;

                    pCheckers->Add(chk);

                    chk.Null();

                }

            }

            isFirst = false;

        }

        delete pCheckers;

        return false;

    }


    size_t m_MatchSize(typename CAbstractChecker::TParam ip, CVectorT< CStrT<TYP> >* pGroupStr) const

    {

        if ( m_root.IsNull() )

        {

            return INVALID_SIZE;

        }

        size_t l = m_root->Check(ip);

        if ( ip.pt->outsizeEnd != ITE() )

        {

            l = INVALID_SIZE;

        }

        if ( pGroupStr != NULL )

        {

            *pGroupStr = ip.pt->ToStrings();

        }

        return l;

    }


public:


    CRegularExpressionT(void) : m_option(0)

    {

    }


    void SetOption(DWORD dw)

    {

        m_option = dw;

    }


    bool SetPattern(const TYP* lpsz)

    {

        m_RemoveAll();

        CWordVector vw = TNB::StringToWordVector(lpsz);

        vw.Add(0);

        vw.Add(0); //保険

        const WORD* P = vw.ReferBuffer();

        CCheckerPtr chk;

        if ( ! m_Sub(chk, P, false) )

        {

            m_RemoveAll();

            return false;

        }

        if ( *P != 0 )

        {

            m_RemoveAll();

            return false;

        }

        m_root = new CGroupChecker(chk);

        m_base = lpsz;

        return true;

    }


    size_t LookingAt(ITE is, ITE ie = ITE(), CVectorT< CStrT<TYP> >* pGroupStr = NULL) const

    {

        CAbstractChecker::TStaticParam sp;

        sp.option = m_option;

        CAbstractChecker::TParam ip(is, is, ie, &sp);

        return m_MatchSize(ip, pGroupStr);

    }


    bool Matches(ITE is, ITE ie = ITE(), CVectorT< CStrT<TYP> >* pGroupStr = NULL) const

    {

        CAbstractChecker::TStaticParam sp;

        sp.option = m_option;

        CAbstractChecker::TParam ip(is, is, ie, &sp);

        size_t l = m_MatchSize(ip, pGroupStr);

        if ( l == INVALID_SIZE )

        {

            return false;

        }

        ip.StepCur(l);

        return ip.IsTerminate();

    }


    struct TFindResult

    {

        INDEX       foundIndex;

        size_t      foundSize;

        TFindResult(void) : foundIndex(0), foundSize(0) {}

    };


    TFindResult Find(ITE is, ITE ie = ITE(), CVectorT< CStrT<TYP> >* pGroupStr = NULL) const

    {

        CAbstractChecker::TStaticParam sp;

        sp.option = m_option;

        CAbstractChecker::TParam ip(is, is, ie, &sp);

        TFindResult r;

        if ( ! m_root.IsNull() )

        {

            while ( ! ip.IsTerminate() )

            {

                ip.top = is;

                sp.groupIterators.RemoveAll();

                sp.outsizeEnd = ITE();

                r.foundSize = m_root->Check(ip);

                if ( r.foundSize != INVALID_SIZE )

                {

                    if ( sp.outsizeEnd != ITE() )

                    {

                        while ( is != ip.cur )

                        {

                            is++;

                        }

                        while ( is != sp.outsizeEnd )

                        {

                            is++;

                            r.foundIndex++;

                            r.foundSize--;

                        }

                    }

                    if ( pGroupStr != NULL )

                    {

                        *pGroupStr = ip.pt->ToStrings();

                    }

                    return r;

                }

                if ( sp.outsizeEnd != ITE() )

                {

                    while ( ip.cur != sp.outsizeEnd )

                    {

                        r.foundIndex++;

                        ip.cur++;

                    }

                }

                if ( ! ip.IsTerminate() && STRLIB::GetCharSize(*ip.cur) == 2 )

                {

                    r.foundIndex++;

                    ip.cur++;

                }

                r.foundIndex++;

                ip.cur++;

            }

        }

        r.foundSize = INVALID_SIZE;

        r.foundIndex = INVALID_INDEX;

        if ( pGroupStr != NULL )

        {

            *pGroupStr = ip.pt->ToStrings();

        }

        return r;

    }


    CVectorT< CStrT<TYP> > Split(ITE is, ITE ie = ITE(), int limit = 0) const

    {

        CVectorT< CStrT<TYP> > vs;

        while ( limit <= 0 || static_cast<int>(vs.GetSize()) < limit - 1 )

        {

            TFindResult r = Find(is, ie);

            if ( r.foundIndex == INVALID_INDEX )

            {

                break;

            }

            CStrT<TYP> s;

            loop ( i, r.foundIndex )

            {

                s += *is++;

            }

            vs.Add(s);

            loop ( i, r.foundSize )

            {

                is++;

            }

        }

        vs.Add(CStrT<TYP>::FromIterator(is, ie));

        if ( limit == 0 )

        {

            for ( INDEX i = vs.GetSize() - 1; i > 0; i-- )

            {

                if ( ! vs[i].IsEmpty() )

                {

                    break;

                }

                vs.Remove(i);

            }

        }

        return vs;

    }


    class CFinder

    {

        const CRegularExpressionT*  m_pRegEx;

        ITE                         m_is;

        ITE                         m_ie;

        CStrT<TYP>                  m_strDst;

        INDEX                       m_index;

        CStrT<TYP>                  m_foundString;

        INDEX                       m_foundIndex;

        CVectorT< CStrT<TYP> >      m_foundGroupStr;

    public:


        CFinder(const CRegularExpressionT* P = NULL, ITE is = ITE(), ITE ie = ITE())

            : m_foundIndex(0), m_index(0), m_pRegEx(P), m_is(is), m_ie(ie)

        {

            Next();

        }


        bool IsFinding(void) const

        {

            return m_pRegEx != NULL;

        }


        bool Next(void)

        {

            if ( m_pRegEx != NULL )

            {

                m_strDst += m_foundString;

                m_foundString.Empty();

                TFindResult r = m_pRegEx->Find(m_is, m_ie, &m_foundGroupStr);

                if ( r.foundSize == INVALID_SIZE )

                {

                    m_pRegEx = NULL;

                }

                else

                {

                    m_strDst += CStrT<TYP>::FromIterator(m_is, m_ie, r.foundIndex);

                    loop ( i, r.foundIndex ) { m_is++; }

                    m_foundString = CStrT<TYP>::FromIterator(m_is, m_ie, r.foundSize);

                    m_foundIndex = m_index + r.foundIndex;

                    loop ( i, r.foundSize ) { m_is++; }

                    m_index += r.foundIndex + r.foundSize;

                }

            }

            return m_pRegEx != NULL;

        }


        bool Replace(const TYP* lpsz)

        {

            if ( ! IsFinding() ) { return false; }

            CStrT<TYP> s;

            while ( *lpsz != 0 )

            {

                if ( STRLIB::GetCharSize(*lpsz) == 2 )

                {

                    s += *lpsz++;

                    s += *lpsz++;

                }

                else if ( *lpsz != '\\' )

                {

                    s += *lpsz++;

                }

                else

                {

                    lpsz++;

                    TYP c = *lpsz++;

                    if ( c >= '0' && c <= '9' )

                    {

                        INDEX i = c - '0';

                        if ( m_foundGroupStr.GetSize() > i )

                        {

                            s += m_foundGroupStr[i];

                        }

                    }

                    else

                    {

                        s += c;

                    }

                }

            }

            m_foundString = s;

            return true;

        }


        CStrT<TYP> GetFoundString(void) const

        {

            return m_foundString;

        }


        size_t GetFoundSize(void) const

        {

            return m_foundString.GetLength();

        }


        const CVectorT< CStrT<TYP> >& GetFoundGroupString(void) const

        {

            return m_foundGroupStr;

        }


        INDEX GetFoundIndex(void) const

        {

            return m_foundIndex;

        }


        CStrT<TYP> GetString(void) const

        {

            return m_strDst + m_foundString + CStrT<TYP>::FromIterator(m_is, m_ie);

        }

    };


    CFinder GetFinder(ITE is, ITE ie = ITE()) const

    {

        return CFinder(this, is, ie);

    }


    CStrT<TYP> ReplaceAll(const TYP* lpsz, ITE is, ITE ie = ITE()) const

    {

        CFinder f(this, is, ie);

        if ( f.IsFinding() )

        {

            do { f.Replace(lpsz); } while ( f.Next() );

        }

        return f.GetString();

    }


private:

    friend class CRegularExpressionTest;

};


}; // TNB


//T-TestCaseコードカバレッジEnable

#pragma comment(user,"T-Coverage Enable")


#if 0


正規表現グループと前方参照


前方参照を行う正規表現グループには、左から右方向に左丸括弧を数えることによって、

番号が付けられます。たとえば、表現 ((A)(B(C))) は、次の 4 つのグループに分類さ

れます。


    1   ((A)(B(C)))

    2   (A)

    3   (B(C))

    4   (C)

グループ 0 は、常に表現全体を表します。


http://oraclesqlpuzzle.hp.infoseek.co.jp/regex/


#endif


#if 0


http://programnet.hp.infoseek.co.jp/practical/regex.html

郵便番号    　\d{3}-\d{4}

携帯番号    　090-\d{4}-\d{4}

電話番号    　\d{1,4}?-\d{1,4}?-\d{1,4}

生年月日    　\d{4}-\d{2}-\d{2}

メールアドレス 　[!#-9A-~]+@[a-z0-9-_]+\.+[a-z0-9-_]+\.+[a-z0-9-]


よくある勘違い その2

前述した通り、 ブラケットに囲まれている中ではほとんどのメタキャラ

クタはその特殊な意味を失います。 したがって、 [^(foo)]bar という

正規表現もまた、「fooではない文字列に続いてbarという文字列が続くもの」

 ではありません。「fでもoでも(でも)でもない文字に続いて barという

 文字列が続いたもの」 です。 []の内側では、文字列や(より小さな)

 正規表現要素をまとめるというカッコの 特別な意味は失われてしまうと

 いうことに注意してください。


正規表現の確認可能 HP

http://lab.moyo.biz/tools/regexp/index.jsp

#endif


#if 0

モード


複数行モード                  ＊   '^' と '$' が各行の始まりと終わりにマッチするようになります。

.が改行にもマッチするモード      ＊   '.' が改行文字にもマッチするようにします。

大文字と小文字を同一視モード  ＊   大文字と小文字を区別しないようにします。


#endif

_BIT
#define _BIT(X)
BIT演算
Definition: TnbDef.h:307

loop
#define loop(VAR, CNT)
loop構文.
Definition: TnbDef.h:343

TnbStrVector.h
文字列情報配列管理関係のヘッダ

TNB::CPointerHandleT
ポインタ型ハンドルテンプレート
Definition: TnbPointerHandle.h:348

TNB::CRegularExpressionT::CFinder
正規表現ファインダクラス
Definition: TnbRegularExpression.h:1491

TNB::CRegularExpressionT::CFinder::GetFoundGroupString
const CVectorT< CStrT< TYP > > & GetFoundGroupString(void) const
[取得] マッチしたグループ文字列取得.
Definition: TnbRegularExpression.h:1626

TNB::CRegularExpressionT::CFinder::Next
bool Next(void)
[検索] 次検索
Definition: TnbRegularExpression.h:1531

TNB::CRegularExpressionT::CFinder::Replace
bool Replace(const TYP *lpsz)
[置換] 置き換え.
Definition: TnbRegularExpression.h:1565

TNB::CRegularExpressionT::CFinder::GetString
CStrT< TYP > GetString(void) const
[取得] 置換結果文字列取得.
Definition: TnbRegularExpression.h:1646

TNB::CRegularExpressionT::CFinder::GetFoundString
CStrT< TYP > GetFoundString(void) const
[取得] マッチした文字列取得.
Definition: TnbRegularExpression.h:1607

TNB::CRegularExpressionT::CFinder::IsFinding
bool IsFinding(void) const
[確認] 検索確認
Definition: TnbRegularExpression.h:1520

TNB::CRegularExpressionT::CFinder::GetFoundIndex
INDEX GetFoundIndex(void) const
[取得] マッチした位置取得.
Definition: TnbRegularExpression.h:1635

TNB::CRegularExpressionT::CFinder::CFinder
CFinder(const CRegularExpressionT *P=NULL, ITE is=ITE(), ITE ie=ITE())
コンストラクタ
Definition: TnbRegularExpression.h:1509

TNB::CRegularExpressionT::CFinder::GetFoundSize
size_t GetFoundSize(void) const
[取得] マッチした文字列長取得.
Definition: TnbRegularExpression.h:1617

TNB::CRegularExpressionT
正規表現管理クラステンプレート
Definition: TnbRegularExpression.h:163

TNB::CRegularExpressionT::SetPattern
bool SetPattern(const TYP *lpsz)
[設定] パターン設定.
Definition: TnbRegularExpression.h:1254

TNB::CRegularExpressionT::GetFinder
CFinder GetFinder(ITE is, ITE ie=ITE()) const
[取得] ファインダー取得.
Definition: TnbRegularExpression.h:1658

TNB::CRegularExpressionT::Find
TFindResult Find(ITE is, ITE ie=ITE(), CVectorT< CStrT< TYP > > *pGroupStr=NULL) const
[検索] 検索
Definition: TnbRegularExpression.h:1342

TNB::CRegularExpressionT::Split
CVectorT< CStrT< TYP > > Split(ITE is, ITE ie=ITE(), int limit=0) const
[取得] 分割.
Definition: TnbRegularExpression.h:1423

TNB::CRegularExpressionT::Matches
bool Matches(ITE is, ITE ie=ITE(), CVectorT< CStrT< TYP > > *pGroupStr=NULL) const
[比較] 全体マッチ
Definition: TnbRegularExpression.h:1305

TNB::CRegularExpressionT::CRegularExpressionT
CRegularExpressionT(void)
コンストラクタ
Definition: TnbRegularExpression.h:1232

TNB::CRegularExpressionT::ReplaceAll
CStrT< TYP > ReplaceAll(const TYP *lpsz, ITE is, ITE ie=ITE()) const
[置換] 置き換え.
Definition: TnbRegularExpression.h:1675

TNB::CRegularExpressionT::SetOption
void SetOption(DWORD dw)
[設定] オプション設定.
Definition: TnbRegularExpression.h:1243

TNB::CRegularExpressionT::EOption
EOption
オプション.
Definition: TnbRegularExpression.h:172

TNB::CRegularExpressionT::IGNORECASE
@ IGNORECASE
「欧文の大文字と小文字を区別しない」オプション
Definition: TnbRegularExpression.h:173

TNB::CRegularExpressionT::LookingAt
size_t LookingAt(ITE is, ITE ie=ITE(), CVectorT< CStrT< TYP > > *pGroupStr=NULL) const
[比較] 先頭マッチ
Definition: TnbRegularExpression.h:1287

TNB::CStrT
文字列管理テンプレート
Definition: TnbStr.h:74

TNB::CStrT::GetLength
size_t GetLength(void) const
[取得] 文字列長
Definition: TnbStr.h:518

TNB::CStrT::Empty
void Empty(void)
[削除] 空化
Definition: TnbStr.h:197

TNB::CStrT::FromIterator
static CStrT FromIterator(ITE is, ITE ie=ITE(), size_t max=INVALID_SIZE)
[代入] イテレータ代入.
Definition: TnbStr.h:1272

TNB::CVectorT
配列型情報管理テンプレート
Definition: TnbVector.h:75

TNB::CVectorT::GetSize
virtual size_t GetSize(void) const
[取得] サイズ取得
Definition: TnbVector.h:368

TNB::CVectorT::Remove
virtual bool Remove(INDEX index)
[削除] 要素一つ削除.
Definition: TnbVector.h:397

TNB::CVectorT::At
virtual const TYP & At(INDEX index) const
[取得] 要素の参照取得.
Definition: TnbVector.h:233

TNB::CVectorT::SetSize
virtual bool SetSize(size_t size)
[操作] サイズ指定
Definition: TnbVector.h:618

TNB::CVectorT::ReferBuffer
virtual const TYP * ReferBuffer(void) const
[取得] データアドレス取得
Definition: TnbVector.h:664

TNB::CVectorT::Add
virtual INDEX Add(const TYP &t)
[追加] 要素一つ追加.
Definition: TnbVector.h:383

TNB::STRLIB::GetCharSize
int GetCharSize(char c)
[取得] 文字のサイズ(ASCII/SJIS用)
Definition: TnbStrLib.h:341

TNB::StringToWordVector
CWordVector StringToWordVector(LPCSTR lpszAscii)
[変換] ASCII文字列→文字単位配列
Definition: TnbStrVector.h:63

TNB::STRLIB::EscCharToInt
int EscCharToInt(const TYP *&_lpsz)
[変換] エスケープ文字表記変換
Definition: TnbStrLib.h:533

TNB::Swap
void Swap(T &t1, T &t2)
[変換] スワッパー.
Definition: TnbDef.h:963

TNB
TNB Library
Definition: TnbDoxyTitle.txt:2

TNB::CRegularExpressionT::TFindResult
Find() メソッド用リザルト
Definition: TnbRegularExpression.h:1327

TNB::CRegularExpressionT::TFindResult::foundSize
size_t foundSize
マッチした長さ
Definition: TnbRegularExpression.h:1329

TNB::CRegularExpressionT::TFindResult::TFindResult
TFindResult(void)
コンストラクタ
Definition: TnbRegularExpression.h:1331

TNB::CRegularExpressionT::TFindResult::foundIndex
INDEX foundIndex
マッチした位置
Definition: TnbRegularExpression.h:1328

TNB::IConstCollectionT::IsEmpty
bool IsEmpty(void) const
[確認] 要素の有無確認.
Definition: TnbCollection.h:346