Source code formatter in Python

This is the latest version of the script I use to format the code blocks on this blog.

It is just something i put together while learning how to use Python to allow me to post nicely formatted code a bit more easily than editing it by hand (which is what I used to do). There is a lot ‘wrong’ with it and if I ever start from scratch again I’d probably implement it quite differently, but for now it does the job of accommodating some of the peculiarities of WordPress and will format stuff nicely that I can’t easily format any other way..

To display the highlighted output on the console using ANSI escape sequences.

To format the output using HTML tags and save it in a file use the HTML option. Do not attempt to copy the output directly from the terminal window, it doesn’t work… -h >

The following listing was produced using the command above.

#!/usr/bin/env python
#  py-format
#  Formats the input to colourise keywords, variables, etc.
#  Output may be TEXT, ANSI (default), or HTML.
#  This  program is free software: you can redistribute it and/or modify it
#  under  the  terms of the GNU General Public License as published  by the
#  Free  Software  Foundation, either version 3 of the License, or (at your
#  option) any later version.
#  This  program  is  distributed in the hope that it will  be  useful, but
#  WITHOUT   ANY   WARRANTY;   without even   the   implied   warranty   of
#  Public License for more details.
#  You should have received a copy of the GNU General Public License  along
#  with this program.  If not, see <>.
#  20 Mar 16   0.1   - Initial version - MT
#  10 Apr 16         - Reads input files character by character - MT
#  11 Jun 16         - Keyword parsing works (used a bit of fudge to handle
#                      newline characters as part of a token) - MT
#  12 Jun 16         - Allow for multi line comments and strings - MT
#                    - Add key words for shell scripts (bash) - MT
#  16 Jun 16         - Add escape character handling - MT
#  25 Jun 16         - Added the ability to produce HTML output and  encode
#                      special  any characters to stop them being  modified
#                      by WordPress - MT
#                    - Fixed bug in escape sequence code - MT
#                    - Fixed bug when highlighting functions - MT
#  26 Jun 16         - Substitutes character codes in escape sequences - MT
#                    - Highlights numbers - MT
#                    - Line  numbers formatted properly when producing HTML
#                      output - MT
#  15 Jul 16   0.2   - Fixed  issue with highlighting escape characters and
#                      added highlighting of reserved words - MT
#  28 Nov 16         - Modified ANSI highlighting codes - MT
#  08 Mar 17         - Added  a qualifier to allow the user  to  explicitly
#                      select plain text output - MT
#                    - HTML  encode  'x' and 'X' characters  to  stop  them
#                      being modified by WordPress - MT
#  12 Aug 18   0.3   - Added Microsoft BASIC keywords - MT
#                    - Start  each file with a new line, which also ensures
#                      that the first character is formatted correctly - MT
#                    - Added some PowerShell keywords - MT
#  04 Mar 19   0.4   - Added some DOS Batch file keywords - MT
#  19 Mar 19         - Updated  lists  of Visual BASIC Script keywords  and
#                      builtin functions - MT
#  22 Mar 19         - Added definitions for Digital Command Language - MT
#  24 Jun 20         - Added some definitions for Rust - MT
#  26 Jul 20         - Added definitions for Quick PASCAL - MT
#  14 Jan 21   0.5   - Added comment delimiters for ALGOL68- MT
#  11 Mar 21   0.6   - Added definitions for ADA85 - MT
#                    - Added  highlighting of operators, and  modified  the
#                      ALGOL68 separators - MT
#  09 Apr 21         - Added most of the definitions for COBOL - MEJT
#  16 Jun 21   0.7   - Explicitly includes line breaks - MT
#                    - Modified routine that encodes special characters  to
#                      use the HTML character names rather than ASCII codes
#                      to stop them being modified by WordPress - MT
#  04 Jul 21   0.8   - Modified   the  encoding  routine  again  to  simply
#                      replace  all  occourances of each  character  rather
#                      than  iterate  through all the  characters  checking
#                      each one - MT
#                    - Decodes unicode characters - MT
#  12 Nov 21   0.9   - Allows the file type (for all files) to be specified
#                      one the command line - MT
#                    - Fixed issues when using python3 - MT
#                    - Decodes unicode hyphens, quotes and single quotes to
#                      ACSII characters in HTML output - MT
#  12 Mar 22         - Added a special token type to change the format of a
#                      string to allow the named value pairs in a JSON file
#                      to be displayed in a different colour - MT 
#  24 Jul 22         - Decodes copyright symbol - MT
#                    - Added some definitions for lisp primitives - MT
#  22 May 23         - Fixed missing format definition for a value in plain
#                      text output - MT
import sys, os

VERSION = "0.9"

def _about():
  _path = os.path.basename(sys.argv[0]) 
    "Usage: " + sys.argv[0+ "[OPTION]... [FILE]...\n"
    "Concatenate FILE(s)to standard output.\n" + "\n" +
    "  -a, --ansi               use ansi escape sequences (default)\n" +
    "  -b, --number-nonblank    number nonempty output lines," +
    " overrides -n\n" +
    "  -h, --html               use html markup\n" +
    "  -n, --number             number all output lines \n" +
    "  -r, --restart            line numbers start at zero, implies -n\n" +
    "  -s, --squeeze-blank      suppress repeated empty output lines\n" +
    "  -t, --text               use plain text\n" +
    "      --help               display this help and exit\n" +
    "      --version            output version information and exit\n\n" +
    "Example:\n" +
    "  " + _path + " f g\t   output f's contents, then g's contents.\n")
  raise SystemExit

def _version():
  _path = os.path.basename(sys.argv[0])
  sys.stdout.write(_path + " " + VERSION +"\n" +
    "License GPLv3+: GNU GPL version 3 or later.\n"
    "This is free software: you are free to change and redistribute it.\n"
    "There is NO WARRANTY, to the extent permitted by law.\n")
  raise SystemExit

def _invalid(_option):
  _path = os.path.basename(sys.argv[0])
  sys.stderr.write(_path + ": invalid option -- '" + _option[1:] + "'\n")
  sys.stderr.write("Try '" + _path + " --help' for more information.\n")
  raise SystemExit

def _invalid_type(_type):
  _path = os.path.basename(sys.argv[0])
  sys.stderr.write(_path + ": invalid file type -- '" + _type + "'\n")
  sys.stderr.write("Try '" + _path + " --help' for more information.\n")
  raise SystemExit

def _unrecognized(_option):
  _path = os.path.basename(sys.argv[0])
  sys.stderr.write(_path + ": unrecognized option '" + _option + "'\n")
  sys.stderr.write("Try '" + _path + " --help' for more information.\n")
  raise SystemExit

def _error(_error):
  sys.stderr.write(os.path.basename(sys.argv[0]) + ": " + _name +
    ": " + _error + "\n")

# Colours -
#   Black: 0, Red: 1, Green: 2, Yellow: 3, Blue: 4, Magenta: 5, Cyan: 6,
#   White: 7, Default: 9
# Attributes -
#   Normal: 0, Bold: 1, Dark: 2, Itallic: 3, Underline: 4, Inverse: 7,
#   Strikethrough: 9

_formats = { # Formatting escape sequences or HTML
# ESC[0;31m : Red       ESC[0;32m : Green     ESC[0;33m : Yellow
# ESC[0;34m : Blue      ESC[0;35m : Magenta   ESC[0;36m : Cyan
# ESC[0;37m : White
  'ansi':  {'body'      : (''),               # Do nothing!!!
            'end'       : (''),
            'comment'   : ('\033[0;37m'),     # Grey
            'string'    : ('\033[0;32m'),     # Green
            'value'     : ('\033[0;36m'),     # Dark Cyan
            'number'    : ('\033[1;36m'),     # Cyan
            'keyword'   : ('\033[0;36m'),     # Cyan
            'function'  : ('\033[1;2;35m'),   # Purple
            'reserved'  : ('\033[1;36m'),     # Blue
            'definition': ('\033[0;35m'),     # Magenta
            'operator'  : ('\033[0;96m'),     # Magenta
            'escape'    : ('\033[1;31m'),     # Red
            ''          : ('\033[0m')},

  'html':  {'body'      : ('<pre style="border-color:#d2d0ce; ' +
                           'border-style:solid; border-width:1px; ' +
                           'border-radius:5px; background:#f7f7f7; ' +
                           'padding:10px; line-height:133%; ' +
                           'font-family:monospace; white-space:nowrap; '
                           'white-space:pre; overflow:auto; ' +
                           'font-size:10pt; color:#696969;">'),
            'end'       : ('</pre><br>\n'),
            'comment'   : ('<span style="color:slategray;">'),
#           'comment'   : ('<span style="color:sienna;">'),
            'string'    : ('<span style="color:forestgreen;">'),
            'value'     : ('<span style="color:darkgreen;">'),
            'number'    : ('<span style="color:darkturquoise;">'),
            'keyword'   : ('<span style="color:dodgerblue;">'),
            'function'  : ('<span style="color:purple;">'),
            'reserved'  : ('<span style="color:green;">'),
            'definition': ('<span style="color:indianred;">'),
            'operator'  : ('<span style="color:darkcyan;">'),
            'escape'    : ('<span style="color:brown;">'),
            ''          : ('</span>')},

  ''    :  {'body'      : (''),
            'end'       : (''),
            'comment'   : (''),
            'string'    : (''),
            'value'     : (''),
            'number'    : (''),
            'keyword'   : (''),
            'function'  : (''),
            'reserved'  : (''),
            'definition': (''),
            'operator'  : (''),
            'escape'    : (''),
            ''          : ('')}
}     # Reset attributes

_spaces = [' ''\t''\r']

_eoln = ['\n''\v''\f']

_hexadecimal = '0123456789abcdefABCDEF'

_types = ['.a68''.ada''.bas''.c''.cmd''.cob''.dcl''.f77',

_plaintext = ['.log''.lis''.txt''']

_escape = { # Tokens that signal an escape character
  '.a68' : ['' ],
  '.ada' : ['' ],
  '.bas' : ['' ],
  '.c'   : ['\\'],
  '.cmd' : [''],
  '.cob' : [''],
  '.dcl' : [''],
  '.f77' : [''],
  '.for' : [''],
  '.ftn' : [''],
  '.h'   : ['\\'],
  '.json': [''],
  '.lisp': [''],
  '.pas' : ['' ],
  '.py'  : ['\\'],
  '.ps1' : ['\`'],
  '.rs'  : ['\`'],
  '.sh'  : ['\\'],
  '.vbs' : [''],
  ''     : [''],

_quotes = { # Tokens that start or end a string
  '.a68' : ['"'],
  '.ada' : ['"'],
  '.bas' : ['"'],
  '.c'   : ['"''\''],
  '.cmd' : ['"'],
  '.cob' : ['"''\''],
  '.dcl' : ['"'],
  '.f77' : ['"''\''],
  '.for' : ['"''\''],
  '.ftn' : ['"''\''],
  '.h'   : ['"''\''],
  '.json': ['"''\''],
  '.lisp': ['"''\''],
  '.pas' : ['\''],
  '.py'  : ['"''\''],
  '.ps1' : ['"''\''],
  '.rs'  : ['"''\''],
  '.sh'  : ['"''\''],
  '.vbs' : ['"'],
  ''     : ['']

_delimiters = { # Token separators
  '.a68' : ['('')''['']'';'','],
  '.ada' : ['('')''['']'';'','],
  '.bas' : ['('')''['']'':''.'','],
  '.c'   : ['('')''{''}''['']'';'':''.'',''!'],
  '.cmd' : ['('')''['']'';'':''.'',''@'],
  '.cob' : ['('')''['']'':''.'','],
  '.dcl' : ['('')''{''}''['']'';'':''.'',''\'','+''-''/''*'],
  '.f77' : ['('')''['']'':''.'','],
  '.for' : ['('')''['']'':''.'','],
  '.ftn' : ['('')''['']'':''.'','],
  '.h'   : ['('')''{''}''['']'';'':''.'',''!'],
  '.json': ['('')''{''}''['']'':'';'','], 
  '.lisp': ['('')''{''}''['']'':'';'','], 
  '.pas' : ['('')''['']'';'':''.'',''$'' '],
  '.py'  : ['('')''{''}''['']'';'':''.'',''!'],
  '.ps1' : ['('')''{''}''['']'';'':''.'',''!''|'],
  '.rs'  : ['('')''{''}''['']'';'':''.'',''!'],
  '.sh'  : ['('')''{''}''['']'';'':''.'',''!'],
  '.vbs' : ['('')''{''}''['']'';'':''.'',''!'],
  ''     : []

_special = { # Special separators (used to highlight name/value pairs)
  '.a68' : [],
  '.ada' : [],
  '.bas' : [],
  '.c'   : [],
  '.cmd' : [],
  '.cob' : [],
  '.dcl' : [],
  '.f77' : [],
  '.for' : [],
  '.ftn' : [],
  '.h'   : [],
  '.json': [':'], 
  '.lisp': [], 
  '.pas' : [],
  '.py'  : [],
  '.ps1' : [],
  '.rs'  : [],
  '.sh'  : [],
  '.vbs' : [],
  ''     : []

_comments = { # Tokens that start a comment section
  '.a68' : ['CO''COMMENT''{'],
  '.ada' : ['--'],
  '.bas' : ['REM'],
  '.c'   : ['/*''//'],
  '.cmd' : ['rem'],
  '.cob' : ['\n*''\n**''\n***''\n****''\n*****''\n******''\n*******'],
  '.dcl' : ['\n$!'],
  '.f77' : [],
  '.for' : ['\nC'],
  '.ftn' : ['\nC'],
  '.h'   : ['/*''//'],
  '.json': ['//'], 
  '.lisp': [';'], 
  '.pas' : ['{''(*'],
  '.py'  : ['#'],
  '.ps1' : ['#'],
  '.rs'  : ['//'],
  '.sh'  : ['#'],
  '.vbs' : ['\''],
  ''     : []

_code = { # Tokens that end a comment section - paired with comments.
  '.a68' : ['CO''COMMENT''}'],
  '.ada' : ['\n'],
  '.bas' : ['\n'],
  '.c'   : ['*/''\n'],
  '.cmd' : ['\n'],
  '.cob' : ['\n''\n''\n''\n''\n''\n''\n'],
  '.dcl' : ['\n'],
  '.f77' : [],
  '.for' : ['\n'],
  '.ftn' : ['\n'],
  '.h'   : ['*/''\n'],
  '.json': ['\n'], 
  '.lisp': ['\n'], 
  '.pas' : ['}''*)'],
  '.py'  : ['\n'],
  '.ps1' : ['\n'],
  '.rs'  : ['\n'],
  '.sh'  : ['\n'],
  '.vbs' : ['\n'],
  ''     : []

_operators = { # Operator Tokens
  '.a68' : ['+''-''/''*''&''^''~''|''%''='':='],
  '.ada' : ['&''\'''('')''*''+'',''-''.''/'':'';',
  '.bas' : ['+''-''/''*''^''='],
  '.c'   : ['+''-''/''*''&''^''~''|''%''='],
  '.cmd' : ['+''-''/''*''==''='],
  '.cob' : ['+'' - ''*''/''**''>''<''>=''<='],
  '.h'   : ['+''-''/''*''&''^''~''|''%''='],
  '.json': ['('')''()''{''}''{}''['']''[]'], 
  '.lisp': ['+'' - ''*''/''=''>''<''>=''<='], 
  '.dcl' : ['+''-''/''*''=='':=''='],
  '.f77' : ['+''-''/''*''^''%''='],
  '.for' : ['+''-''/''*''^''%''='],
  '.ftn' : ['+''-''/''*''^''%''='],
  '.pas' : ['+''-''/''*''=''<>''>''>=',  '<''<=''@'],
  '.py'  : ['+''-''/''*''&''^''~''|''%''='],
  '.ps1' : ['+''-''/''*''&''^''~''|''%''='],
  '.rs'  : ['+''-''/''*''&''\'&''^''~''|''%''='],
  '.sh'  : ['+''-''/''*''&''^''~''|''%''=''['']'],
  '.vbs' : ['+''-''/''*''^''%''=''==''<>'],
  ''     : []

_keywords =  { # Keyword Tokens
  '.a68': ['AT''BEGIN''bits''BOOL''BY''bytes''CASE''CHANNEL',

  '.ada': ['abort''abs''accept''access''all''and''array''at',


  '.c': ['auto''break''case''char''const''continue''default',




  '.h': ['auto''break''case''char''const''continue''default',

  '.json': [],

  '.lisp': ['atom''car''cdr''cond''cons''eq''if''lambda', 

  '.f77': [
    'assign''backspace''block data''call''close''common',
    'continue''data''dimension''do''else''else if''end',

  '.for': [

  '.ftn': [

  '.pas': [

  '.py': ['and''as''assert''break''class''continue','def''del',

  '.ps1': ['Assembly''Base''Begin''Break''Catch''Class''Command',

  '.rs': ['and''as''assert''break''fn''for''if''in''let',

  '.sh': ['case''do''done''elif''else''esac''fi''for',

  ''    : []

_functions = { # Function Tokens
  '.a68': ['close''fixed''newline''open''print''read''reset',

  '.ada': [],


  '.c': ['close''fprintf''open''printf''read''reset''write',

  '.cmd': [],

  '.cob': [],


  '.h': ['close''fprintf''open''printf''read''reset''write',

  '.json': [],

  '.lisp': ['append''consp''defun''defmacro''equal''list''listp',

  '.f77': [],

  '.for': [],

  '.ftn': [],

  '.pas': ['addr''append''arctan''assign''blockread''blockwrite',

  '.py':  ['__import__''abs''all''apply''basestring''bin''bool',

  '.ps1': ['Add-Member''CmdletBinding''Format-Table''Get-Acl',

  '.rs': ['print!''println!'],

  '.sh':  ['alias''bg''bind''break''builtin''caller''cd',

  '.vbs': [
    # Date/Time Functions
    # Conversion
    # Formating
    # Math
    # Array
    # String
    # Other
  ''    : []

_reserved = { # Reserved Tokens
  '.a68' : [],
  '.ada' : [],
  '.bas' : ['%INCLUDE'],
  '.c'   : ['#include''#define''#ifdef'],
  '.cmd' : [],
  '.cob' : [],
  '.dcl' : ['error''warning''control_Y''ERROR''WARNING''CONTROL_Y'],
  '.h'   : [],
  '.json': ['true''false''null''True''False''Null'],
  '.lisp': ['T''F'],
  '.f77' : [],
  '.for' : [],
  '.ftn' : [],
  '.pas' : [],
  '.py'  : ['KeyboardInterrupt''SystemExit''IOError'],
  '.ps1' : ['Continue''Ignore''Inquire''SilentlyContinue''Stop',
  '.rs'  : [],
  '.sh'  : [],
  '.vbs' : ['True''False''Nothing''vbTab''vbCRLF''vbOKOnly''vbError'],
  ''     : []

def _print(_line):
  global _number, _nonblank, _strip, _lines, _blanks, _comment, _string
  global _format
  if len(_line) > 1: _blanks = 0
  if not(_blanks > 1 and _strip):
    if _number and not(len(_line) == 1 and _nonblank):
      _lines += 1
      sys.stdout.write(_expand("%6d  " % _lines))
  _blanks += 1

def _flush(_buffer):
  global _line
  #_buffer = _buffer + '<>'   # Delimit output for debugging
  for _char in _buffer:
    _line += _char
    _buffer = _buffer[1:]
    if _char in _eoln:
      _line = ""

def _expand(_buffer):
  global _format
  if _format == 'html':
    _buffer = _buffer.replace('&''&amp;')
    _buffer = _buffer.replace('#''&#035;')
    _buffer = _buffer.replace(' ''&nbsp;')
    _buffer = _buffer.replace('>''&gt;')
    _buffer = _buffer.replace('<''&lt;')
    _buffer = _buffer.replace('-''&#045;')
    _buffer = _buffer.replace('.''&#046;')
    _buffer = _buffer.replace('\"''&quot;')
    _buffer = _buffer.replace('\'''&apos;')
    _buffer = _buffer.replace(':''&#058;')
    _buffer = _buffer.replace('x''&#120;')
    _buffer = _buffer.replace('X''&#088;')
    #_buffer = _buffer.replace("\n""&nbsp;<br>\n")
      _buffer = _buffer.decode('utf-8')
      _buffer = _buffer.replace(u'\u00a9''&copy;') 
      _buffer = _buffer.replace(u'\u00b0''&deg;') 
      _buffer = _buffer.replace(u'\u2010''&#045;') 
      _buffer = _buffer.replace(u'\u2011''&#045;') 
      _buffer = _buffer.replace(u'\u2012''&#045;') 
      _buffer = _buffer.replace(u'\u2013''&#045;') 
      _buffer = _buffer.replace(u'\u2014''&#045;') 
      _buffer = _buffer.replace(u'\u2015''&#045;') 
      _buffer = _buffer.replace(u'\u2018''&apos;') 
      _buffer = _buffer.replace(u'\u2019''&apos;') 
      _buffer = _buffer.replace(u'\u201B''&apos;') 
      _buffer = _buffer.replace(u'\u201C''&quot;') 
      _buffer = _buffer.replace(u'\u201D''&quot;') 
      _buffer = _buffer.replace(u'\u201F''&quot;') 
      _buffer = _buffer.encode('ascii')
  return _buffer

def _isnumeric(_value):
    _number = float(_value)
  except ValueError:
    return False
    return True
def _get_char(_file):
  _bytes =
  while _bytes == "\r":
    _bytes =
  if len(_bytes) > 0:
    try# Fudge to get script to work with python 2 and 3.
      _char = chr(_bytes[0])
      _char = _bytes[0]
    _char = ''
  return _char

_names = []
_restart = False
_number = False
_nonblank = False
_strip = False
_format = "ansi" # Default

_type = ''
_args = iter(sys.argv[1:])
for _arg in _args:
  if _arg[:2] == "--":
    if _arg in "--text":
      _format = ""
    elif _arg in "--squeeze-blank":
      _strip = True
    elif _arg in "--restart":
      _number = True
      _restart = True
    elif _arg in "--number":
      _number = True
    elif _arg == "--html":
      _format = "html"
    elif _arg in "--number-nonblank":
      _number = True
      _nonblank = True
    elif _arg == "--ansi":
      _format = "ansi"
    elif _arg in "--type":
        _type = next(_args)
        _type = ''
      if _type not in _types and _type not in _plaintext: _invalid_type(_type)
    elif _arg in "--help":
    elif _arg in "--version":
    if _arg[:1] == "-" and len(_arg) > 1# '-' by itself is valid (stdin).
      if _arg == "-t":
        _format = ""
      elif _arg == "-s":
        _strip = True
      elif _arg == "-r":
        _number = True
        _restart = True
      elif _arg == "-n":
        _number = True
      elif _arg == "-h":
        _format = "html"
      elif _arg == "-b":
        _number = True
        _nonblank = True
      elif _arg == "-a":
        _format = "ansi"
      _names.append(_arg) # If it isn't a qualified

if not len(_names) : _names.append(""# Default to stdin.

_lines = 0
_blanks = 0
_string = False
_comment = False

for _name in _names:

  if _type == '': _type = os.path.splitext(_name)[1]
  if _type not in _types: _type = ''
  _seperators = _spaces + _delimiters[_type] + _special[_type] + _quotes[_type]
  #_seperators += _operators[_type]
  _buffer = ""
  _line = ""

    with open(_name, 'rb'as _file:
      if _restart : _lines = 0
      #_char = _get_char(_file)
      _char = "\r" # Start with a newline!!
      while _char:
        if _char in _seperators + _eoln:
          _alt = True
          if _char in _special[_type]:
            _alt = True
          if _char in _delimiters[_type]:
             _alt = False
          # - Check for strings.
          if _char in _quotes[_type]:
            _offset = _quotes[_type].index(_char)
            if _alt:
              _flush(_expand(_buffer) + _formats[_format]["value"])
              _flush(_expand(_buffer) + _formats[_format]["string"])
            _flag = False
            _numeric = False
            _buffer = ""
            _char = _get_char(_file)
            # Scan input until we find the closing quote.
            # Note - There will always be at least one escaped character,
            # even if it is a quote!
            while _char != _quotes[_type][_offset] or (_flag and _count == 1):
              if _char in _eoln:
                _flush(_buffer + _formats[_format][""+ _expand(_char))
                if _alt:
                _buffer = ""
                _char = ""
              if _flag:
                if _count == 1 and _char.isdigit(): _numeric = True
                if (((_char in _hexadecimal and _count < 4 or
                   (_char == "x" or _char =="X"and _count == 2and
                   _numeric) or _count == 1):
                  # Both hexadecimal and octal constants contain up to three
                  # digits, if you don't count the 'X'.
                  if not (_char == "x" or _char =="X"): _count += 1
                  _buffer += _formats[_format][""]
                  _buffer += _formats[_format]["string"]
                  _flag = False
                if _char in _escape[_type]:
                  _buffer += _formats[_format][""]
                  _buffer += _formats[_format]["escape"]
                  _flag = True
                  _count = 1
              _buffer += _expand(_char)
              _char = _get_char(_file)
            # Print string
            if _flag:
              _buffer += _formats[_format][""+ _formats[_format]["string"]
            _buffer += _expand(_char) + _formats[_format][""]
            _char = ""
            _buffer = ""

          # - Check for comments (which _may_ be preceded by a newline).
          elif (_buffer in _comments[_type] or
                _buffer[1:] in _comments[_type]):
            if _buffer[:1in _eoln or  _buffer[:1in _spaces:
              _buffer = _buffer[1:]
            _offset = 0
            for _count, _value in enumerate(_comments[_type]):
              if _buffer in _value:
                _offset = _count
            _flush(_formats[_format]["comment"+ _expand(_buffer))
            _buffer = ""
            # - Process comment until we find a terminator.
            while _char and not _code[_type][_offset] in (_buffer + _char):
              if _char in _eoln:
                _flush(_expand(_buffer) + _formats[_format][""])
                _flush(_expand(_char) + _formats[_format]["comment"])
                _buffer = ""
                _char = ""
              _buffer += _char
              _char = _get_char(_file)
            if _char in _eoln:
              _flush(_expand(_buffer) + _formats[_format][""])
              _flush(_expand(_buffer + _char) + _formats[_format][""])
              _char = ""
            _buffer = ""

          # - Check for keywords.
          elif (_buffer in _keywords[_type] or
                _buffer[1:] in _keywords[_type]):
            if _buffer[:1in _eoln or _seperators:
              _buffer = _buffer[1:]
            _flush(_formats[_format]["keyword"+ _expand(_buffer))
            _buffer = ""

          # - Check for functions.
          elif (_buffer in _functions[_type] or
                _buffer[1:] in _functions[_type]):
            if _buffer[:1in _eoln or _seperators:
              _buffer = _buffer[1:]
            _flush(_formats[_format]["function"+ _expand(_buffer))
            _buffer = ""

          # - Check for reserved words.
          elif (_buffer in _reserved[_type] or
                _buffer[1:] in _reserved[_type]):
            if _buffer[:1in _eoln or _seperators:
              _buffer = _buffer[1:]
            _flush(_formats[_format]["reserved"+ _expand(_buffer))
            _buffer = ""

          # - Check for operators words.
          elif (_buffer in _operators[_type] or
                _buffer[1:] in _operators[_type]):
            if _buffer[:1in _eoln or _seperators:
              _buffer = _buffer[1:]
            _flush(_formats[_format]["operator"+ _expand(_buffer))
            _buffer = ""

          # - Check for numbers.
          elif _type != '' and (_isnumeric(_buffer) or _isnumeric(_buffer[1:])):
            if _buffer[:1in _eoln or _seperators:
              _buffer = _buffer[1:]
              while (_isnumeric(_buffer + _char) and not
                     _char in _seperators + _eoln):
                _buffer += _char
                _char = _get_char(_file)
            _flush(_formats[_format]["number"+ _expand(_buffer))
            _buffer = ""

          _buffer = _char
          _buffer += _char
        _char = _get_char(_file)

      _char = "\r" # End with a newline!!
      _buffer += _char
      _flush(_expand(_buffer) + _formats[_format][""])

  except KeyboardInterrupt :
    raise SystemExit
  except IOError as _err :

This entry was posted in Programming and tagged . Bookmark the permalink.

Leave a comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.