ireport_devel: Markdown/markdown2.py annotate

annotate Markdown/markdown2.py @ 4:363cd315d0e9 draft

Uploaded

author	saskia-hiltemann
date	Mon, 16 Nov 2015 09:46:51 -0500
parents	3c160414da2e
children

rev	line source
0 3c160414da2e initial upload shiltemann parents: diff changeset	1 #!/usr/bin/env python
3c160414da2e initial upload shiltemann parents: diff changeset	2 # Copyright (c) 2012 Trent Mick.
3c160414da2e initial upload shiltemann parents: diff changeset	3 # Copyright (c) 2007-2008 ActiveState Corp.
3c160414da2e initial upload shiltemann parents: diff changeset	4 # License: MIT (http://www.opensource.org/licenses/mit-license.php)
3c160414da2e initial upload shiltemann parents: diff changeset	5
3c160414da2e initial upload shiltemann parents: diff changeset	6 from __future__ import generators
3c160414da2e initial upload shiltemann parents: diff changeset	7
3c160414da2e initial upload shiltemann parents: diff changeset	8 r"""A fast and complete Python implementation of Markdown.
3c160414da2e initial upload shiltemann parents: diff changeset	9
3c160414da2e initial upload shiltemann parents: diff changeset	10 [from http://daringfireball.net/projects/markdown/]
3c160414da2e initial upload shiltemann parents: diff changeset	11 > Markdown is a text-to-HTML filter; it translates an easy-to-read /
3c160414da2e initial upload shiltemann parents: diff changeset	12 > easy-to-write structured text format into HTML. Markdown's text
3c160414da2e initial upload shiltemann parents: diff changeset	13 > format is most similar to that of plain text email, and supports
3c160414da2e initial upload shiltemann parents: diff changeset	14 > features such as headers, emphasis, code blocks, blockquotes, and
3c160414da2e initial upload shiltemann parents: diff changeset	15 > links.
3c160414da2e initial upload shiltemann parents: diff changeset	16 >
3c160414da2e initial upload shiltemann parents: diff changeset	17 > Markdown's syntax is designed not as a generic markup language, but
3c160414da2e initial upload shiltemann parents: diff changeset	18 > specifically to serve as a front-end to (X)HTML. You can use span-level
3c160414da2e initial upload shiltemann parents: diff changeset	19 > HTML tags anywhere in a Markdown document, and you can use block level
3c160414da2e initial upload shiltemann parents: diff changeset	20 > HTML tags (like <div> and <table> as well).
3c160414da2e initial upload shiltemann parents: diff changeset	21
3c160414da2e initial upload shiltemann parents: diff changeset	22 Module usage:
3c160414da2e initial upload shiltemann parents: diff changeset	23
3c160414da2e initial upload shiltemann parents: diff changeset	24 >>> import markdown2
3c160414da2e initial upload shiltemann parents: diff changeset	25 >>> markdown2.markdown("boo!") # or use `html = markdown_path(PATH)`
3c160414da2e initial upload shiltemann parents: diff changeset	26 u'<p><em>boo!</em></p>\n'
3c160414da2e initial upload shiltemann parents: diff changeset	27
3c160414da2e initial upload shiltemann parents: diff changeset	28 >>> markdowner = Markdown()
3c160414da2e initial upload shiltemann parents: diff changeset	29 >>> markdowner.convert("boo!")
3c160414da2e initial upload shiltemann parents: diff changeset	30 u'<p><em>boo!</em></p>\n'
3c160414da2e initial upload shiltemann parents: diff changeset	31 >>> markdowner.convert("boom!")
3c160414da2e initial upload shiltemann parents: diff changeset	32 u'<p><strong>boom!</strong></p>\n'
3c160414da2e initial upload shiltemann parents: diff changeset	33
3c160414da2e initial upload shiltemann parents: diff changeset	34 This implementation of Markdown implements the full "core" syntax plus a
3c160414da2e initial upload shiltemann parents: diff changeset	35 number of extras (e.g., code syntax coloring, footnotes) as described on
3c160414da2e initial upload shiltemann parents: diff changeset	36 <https://github.com/trentm/python-markdown2/wiki/Extras>.
3c160414da2e initial upload shiltemann parents: diff changeset	37 """
3c160414da2e initial upload shiltemann parents: diff changeset	38
3c160414da2e initial upload shiltemann parents: diff changeset	39 cmdln_desc = """A fast and complete Python implementation of Markdown, a
3c160414da2e initial upload shiltemann parents: diff changeset	40 text-to-HTML conversion tool for web writers.
3c160414da2e initial upload shiltemann parents: diff changeset	41
3c160414da2e initial upload shiltemann parents: diff changeset	42 Supported extra syntax options (see -x\|--extras option below and
3c160414da2e initial upload shiltemann parents: diff changeset	43 see <https://github.com/trentm/python-markdown2/wiki/Extras> for details):
3c160414da2e initial upload shiltemann parents: diff changeset	44
3c160414da2e initial upload shiltemann parents: diff changeset	45 * code-friendly: Disable _ and __ for em and strong.
3c160414da2e initial upload shiltemann parents: diff changeset	46 * cuddled-lists: Allow lists to be cuddled to the preceding paragraph.
3c160414da2e initial upload shiltemann parents: diff changeset	47 * fenced-code-blocks: Allows a code block to not have to be indented
3c160414da2e initial upload shiltemann parents: diff changeset	48 by fencing it with '```' on a line before and after. Based on
3c160414da2e initial upload shiltemann parents: diff changeset	49 <http://github.github.com/github-flavored-markdown/> with support for
3c160414da2e initial upload shiltemann parents: diff changeset	50 syntax highlighting.
3c160414da2e initial upload shiltemann parents: diff changeset	51 * footnotes: Support footnotes as in use on daringfireball.net and
3c160414da2e initial upload shiltemann parents: diff changeset	52 implemented in other Markdown processors (tho not in Markdown.pl v1.0.1).
3c160414da2e initial upload shiltemann parents: diff changeset	53 * header-ids: Adds "id" attributes to headers. The id value is a slug of
3c160414da2e initial upload shiltemann parents: diff changeset	54 the header text.
3c160414da2e initial upload shiltemann parents: diff changeset	55 * html-classes: Takes a dict mapping html tag names (lowercase) to a
3c160414da2e initial upload shiltemann parents: diff changeset	56 string to use for a "class" tag attribute. Currently only supports
3c160414da2e initial upload shiltemann parents: diff changeset	57 "pre" and "code" tags. Add an issue if you require this for other tags.
3c160414da2e initial upload shiltemann parents: diff changeset	58 * markdown-in-html: Allow the use of `markdown="1"` in a block HTML tag to
3c160414da2e initial upload shiltemann parents: diff changeset	59 have markdown processing be done on its contents. Similar to
3c160414da2e initial upload shiltemann parents: diff changeset	60 <http://michelf.com/projects/php-markdown/extra/#markdown-attr> but with
3c160414da2e initial upload shiltemann parents: diff changeset	61 some limitations.
3c160414da2e initial upload shiltemann parents: diff changeset	62 * metadata: Extract metadata from a leading '---'-fenced block.
3c160414da2e initial upload shiltemann parents: diff changeset	63 See <https://github.com/trentm/python-markdown2/issues/77> for details.
3c160414da2e initial upload shiltemann parents: diff changeset	64 * nofollow: Add `rel="nofollow"` to add `<a>` tags with an href. See
3c160414da2e initial upload shiltemann parents: diff changeset	65 <http://en.wikipedia.org/wiki/Nofollow>.
3c160414da2e initial upload shiltemann parents: diff changeset	66 * pyshell: Treats unindented Python interactive shell sessions as <code>
3c160414da2e initial upload shiltemann parents: diff changeset	67 blocks.
3c160414da2e initial upload shiltemann parents: diff changeset	68 * link-patterns: Auto-link given regex patterns in text (e.g. bug number
3c160414da2e initial upload shiltemann parents: diff changeset	69 references, revision number references).
3c160414da2e initial upload shiltemann parents: diff changeset	70 * smarty-pants: Replaces ' and " with curly quotation marks or curly
3c160414da2e initial upload shiltemann parents: diff changeset	71 apostrophes. Replaces --, ---, ..., and . . . with en dashes, em dashes,
3c160414da2e initial upload shiltemann parents: diff changeset	72 and ellipses.
3c160414da2e initial upload shiltemann parents: diff changeset	73 * toc: The returned HTML string gets a new "toc_html" attribute which is
3c160414da2e initial upload shiltemann parents: diff changeset	74 a Table of Contents for the document. (experimental)
3c160414da2e initial upload shiltemann parents: diff changeset	75 * xml: Passes one-liner processing instructions and namespaced XML tags.
3c160414da2e initial upload shiltemann parents: diff changeset	76 * tables: Tables using the same format as GFM
3c160414da2e initial upload shiltemann parents: diff changeset	77 <https://help.github.com/articles/github-flavored-markdown#tables> and
3c160414da2e initial upload shiltemann parents: diff changeset	78 PHP-Markdown Extra <https://michelf.ca/projects/php-markdown/extra/#table>.
3c160414da2e initial upload shiltemann parents: diff changeset	79 * wiki-tables: Google Code Wiki-style tables. See
3c160414da2e initial upload shiltemann parents: diff changeset	80 <http://code.google.com/p/support/wiki/WikiSyntax#Tables>.
3c160414da2e initial upload shiltemann parents: diff changeset	81 """
3c160414da2e initial upload shiltemann parents: diff changeset	82
3c160414da2e initial upload shiltemann parents: diff changeset	83 # Dev Notes:
3c160414da2e initial upload shiltemann parents: diff changeset	84 # - Python's regex syntax doesn't have '\z', so I'm using '\Z'. I'm
3c160414da2e initial upload shiltemann parents: diff changeset	85 # not yet sure if there implications with this. Compare 'pydoc sre'
3c160414da2e initial upload shiltemann parents: diff changeset	86 # and 'perldoc perlre'.
3c160414da2e initial upload shiltemann parents: diff changeset	87
3c160414da2e initial upload shiltemann parents: diff changeset	88 __version_info__ = (2, 3, 1)
3c160414da2e initial upload shiltemann parents: diff changeset	89 __version__ = '.'.join(map(str, __version_info__))
3c160414da2e initial upload shiltemann parents: diff changeset	90 __author__ = "Trent Mick"
3c160414da2e initial upload shiltemann parents: diff changeset	91
3c160414da2e initial upload shiltemann parents: diff changeset	92 import os
3c160414da2e initial upload shiltemann parents: diff changeset	93 import sys
3c160414da2e initial upload shiltemann parents: diff changeset	94 from pprint import pprint, pformat
3c160414da2e initial upload shiltemann parents: diff changeset	95 import re
3c160414da2e initial upload shiltemann parents: diff changeset	96 import logging
3c160414da2e initial upload shiltemann parents: diff changeset	97 try:
3c160414da2e initial upload shiltemann parents: diff changeset	98 from hashlib import md5
3c160414da2e initial upload shiltemann parents: diff changeset	99 except ImportError:
3c160414da2e initial upload shiltemann parents: diff changeset	100 from md5 import md5
3c160414da2e initial upload shiltemann parents: diff changeset	101 import optparse
3c160414da2e initial upload shiltemann parents: diff changeset	102 from random import random, randint
3c160414da2e initial upload shiltemann parents: diff changeset	103 import codecs
3c160414da2e initial upload shiltemann parents: diff changeset	104
3c160414da2e initial upload shiltemann parents: diff changeset	105
3c160414da2e initial upload shiltemann parents: diff changeset	106 #---- Python version compat
3c160414da2e initial upload shiltemann parents: diff changeset	107
3c160414da2e initial upload shiltemann parents: diff changeset	108 try:
3c160414da2e initial upload shiltemann parents: diff changeset	109 from urllib.parse import quote # python3
3c160414da2e initial upload shiltemann parents: diff changeset	110 except ImportError:
3c160414da2e initial upload shiltemann parents: diff changeset	111 from urllib import quote # python2
3c160414da2e initial upload shiltemann parents: diff changeset	112
3c160414da2e initial upload shiltemann parents: diff changeset	113 if sys.version_info[:2] < (2,4):
3c160414da2e initial upload shiltemann parents: diff changeset	114 from sets import Set as set
3c160414da2e initial upload shiltemann parents: diff changeset	115 def reversed(sequence):
3c160414da2e initial upload shiltemann parents: diff changeset	116 for i in sequence[::-1]:
3c160414da2e initial upload shiltemann parents: diff changeset	117 yield i
3c160414da2e initial upload shiltemann parents: diff changeset	118
3c160414da2e initial upload shiltemann parents: diff changeset	119 # Use `bytes` for byte strings and `unicode` for unicode strings (str in Py3).
3c160414da2e initial upload shiltemann parents: diff changeset	120 if sys.version_info[0] <= 2:
3c160414da2e initial upload shiltemann parents: diff changeset	121 py3 = False
3c160414da2e initial upload shiltemann parents: diff changeset	122 try:
3c160414da2e initial upload shiltemann parents: diff changeset	123 bytes
3c160414da2e initial upload shiltemann parents: diff changeset	124 except NameError:
3c160414da2e initial upload shiltemann parents: diff changeset	125 bytes = str
3c160414da2e initial upload shiltemann parents: diff changeset	126 base_string_type = basestring
3c160414da2e initial upload shiltemann parents: diff changeset	127 elif sys.version_info[0] >= 3:
3c160414da2e initial upload shiltemann parents: diff changeset	128 py3 = True
3c160414da2e initial upload shiltemann parents: diff changeset	129 unicode = str
3c160414da2e initial upload shiltemann parents: diff changeset	130 base_string_type = str
3c160414da2e initial upload shiltemann parents: diff changeset	131
3c160414da2e initial upload shiltemann parents: diff changeset	132
3c160414da2e initial upload shiltemann parents: diff changeset	133
3c160414da2e initial upload shiltemann parents: diff changeset	134 #---- globals
3c160414da2e initial upload shiltemann parents: diff changeset	135
3c160414da2e initial upload shiltemann parents: diff changeset	136 DEBUG = False
3c160414da2e initial upload shiltemann parents: diff changeset	137 log = logging.getLogger("markdown")
3c160414da2e initial upload shiltemann parents: diff changeset	138
3c160414da2e initial upload shiltemann parents: diff changeset	139 DEFAULT_TAB_WIDTH = 4
3c160414da2e initial upload shiltemann parents: diff changeset	140
3c160414da2e initial upload shiltemann parents: diff changeset	141
3c160414da2e initial upload shiltemann parents: diff changeset	142 SECRET_SALT = bytes(randint(0, 1000000))
3c160414da2e initial upload shiltemann parents: diff changeset	143 def _hash_text(s):
3c160414da2e initial upload shiltemann parents: diff changeset	144 return 'md5-' + md5(SECRET_SALT + s.encode("utf-8")).hexdigest()
3c160414da2e initial upload shiltemann parents: diff changeset	145
3c160414da2e initial upload shiltemann parents: diff changeset	146 # Table of hash values for escaped characters:
3c160414da2e initial upload shiltemann parents: diff changeset	147 g_escape_table = dict([(ch, _hash_text(ch))
3c160414da2e initial upload shiltemann parents: diff changeset	148 for ch in '\\`*_{}[]()>#+-.!'])
3c160414da2e initial upload shiltemann parents: diff changeset	149
3c160414da2e initial upload shiltemann parents: diff changeset	150
3c160414da2e initial upload shiltemann parents: diff changeset	151
3c160414da2e initial upload shiltemann parents: diff changeset	152 #---- exceptions
3c160414da2e initial upload shiltemann parents: diff changeset	153
3c160414da2e initial upload shiltemann parents: diff changeset	154 class MarkdownError(Exception):
3c160414da2e initial upload shiltemann parents: diff changeset	155 pass
3c160414da2e initial upload shiltemann parents: diff changeset	156
3c160414da2e initial upload shiltemann parents: diff changeset	157
3c160414da2e initial upload shiltemann parents: diff changeset	158
3c160414da2e initial upload shiltemann parents: diff changeset	159 #---- public api
3c160414da2e initial upload shiltemann parents: diff changeset	160
3c160414da2e initial upload shiltemann parents: diff changeset	161 def markdown_path(path, encoding="utf-8",
3c160414da2e initial upload shiltemann parents: diff changeset	162 html4tags=False, tab_width=DEFAULT_TAB_WIDTH,
3c160414da2e initial upload shiltemann parents: diff changeset	163 safe_mode=None, extras=None, link_patterns=None,
3c160414da2e initial upload shiltemann parents: diff changeset	164 use_file_vars=False):
3c160414da2e initial upload shiltemann parents: diff changeset	165 fp = codecs.open(path, 'r', encoding)
3c160414da2e initial upload shiltemann parents: diff changeset	166 text = fp.read()
3c160414da2e initial upload shiltemann parents: diff changeset	167 fp.close()
3c160414da2e initial upload shiltemann parents: diff changeset	168 return Markdown(html4tags=html4tags, tab_width=tab_width,
3c160414da2e initial upload shiltemann parents: diff changeset	169 safe_mode=safe_mode, extras=extras,
3c160414da2e initial upload shiltemann parents: diff changeset	170 link_patterns=link_patterns,
3c160414da2e initial upload shiltemann parents: diff changeset	171 use_file_vars=use_file_vars).convert(text)
3c160414da2e initial upload shiltemann parents: diff changeset	172
3c160414da2e initial upload shiltemann parents: diff changeset	173 def markdown(text, html4tags=False, tab_width=DEFAULT_TAB_WIDTH,
3c160414da2e initial upload shiltemann parents: diff changeset	174 safe_mode=None, extras=None, link_patterns=None,
3c160414da2e initial upload shiltemann parents: diff changeset	175 use_file_vars=False):
3c160414da2e initial upload shiltemann parents: diff changeset	176 return Markdown(html4tags=html4tags, tab_width=tab_width,
3c160414da2e initial upload shiltemann parents: diff changeset	177 safe_mode=safe_mode, extras=extras,
3c160414da2e initial upload shiltemann parents: diff changeset	178 link_patterns=link_patterns,
3c160414da2e initial upload shiltemann parents: diff changeset	179 use_file_vars=use_file_vars).convert(text)
3c160414da2e initial upload shiltemann parents: diff changeset	180
3c160414da2e initial upload shiltemann parents: diff changeset	181 class Markdown(object):
3c160414da2e initial upload shiltemann parents: diff changeset	182 # The dict of "extras" to enable in processing -- a mapping of
3c160414da2e initial upload shiltemann parents: diff changeset	183 # extra name to argument for the extra. Most extras do not have an
3c160414da2e initial upload shiltemann parents: diff changeset	184 # argument, in which case the value is None.
3c160414da2e initial upload shiltemann parents: diff changeset	185 #
3c160414da2e initial upload shiltemann parents: diff changeset	186 # This can be set via (a) subclassing and (b) the constructor
3c160414da2e initial upload shiltemann parents: diff changeset	187 # "extras" argument.
3c160414da2e initial upload shiltemann parents: diff changeset	188 extras = None
3c160414da2e initial upload shiltemann parents: diff changeset	189
3c160414da2e initial upload shiltemann parents: diff changeset	190 urls = None
3c160414da2e initial upload shiltemann parents: diff changeset	191 titles = None
3c160414da2e initial upload shiltemann parents: diff changeset	192 html_blocks = None
3c160414da2e initial upload shiltemann parents: diff changeset	193 html_spans = None
3c160414da2e initial upload shiltemann parents: diff changeset	194 html_removed_text = "[HTML_REMOVED]" # for compat with markdown.py
3c160414da2e initial upload shiltemann parents: diff changeset	195
3c160414da2e initial upload shiltemann parents: diff changeset	196 # Used to track when we're inside an ordered or unordered list
3c160414da2e initial upload shiltemann parents: diff changeset	197 # (see _ProcessListItems() for details):
3c160414da2e initial upload shiltemann parents: diff changeset	198 list_level = 0
3c160414da2e initial upload shiltemann parents: diff changeset	199
3c160414da2e initial upload shiltemann parents: diff changeset	200 _ws_only_line_re = re.compile(r"^[ \t]+$", re.M)
3c160414da2e initial upload shiltemann parents: diff changeset	201
3c160414da2e initial upload shiltemann parents: diff changeset	202 def __init__(self, html4tags=False, tab_width=4, safe_mode=None,
3c160414da2e initial upload shiltemann parents: diff changeset	203 extras=None, link_patterns=None, use_file_vars=False):
3c160414da2e initial upload shiltemann parents: diff changeset	204 if html4tags:
3c160414da2e initial upload shiltemann parents: diff changeset	205 self.empty_element_suffix = ">"
3c160414da2e initial upload shiltemann parents: diff changeset	206 else:
3c160414da2e initial upload shiltemann parents: diff changeset	207 self.empty_element_suffix = " />"
3c160414da2e initial upload shiltemann parents: diff changeset	208 self.tab_width = tab_width
3c160414da2e initial upload shiltemann parents: diff changeset	209
3c160414da2e initial upload shiltemann parents: diff changeset	210 # For compatibility with earlier markdown2.py and with
3c160414da2e initial upload shiltemann parents: diff changeset	211 # markdown.py's safe_mode being a boolean,
3c160414da2e initial upload shiltemann parents: diff changeset	212 # safe_mode == True -> "replace"
3c160414da2e initial upload shiltemann parents: diff changeset	213 if safe_mode is True:
3c160414da2e initial upload shiltemann parents: diff changeset	214 self.safe_mode = "replace"
3c160414da2e initial upload shiltemann parents: diff changeset	215 else:
3c160414da2e initial upload shiltemann parents: diff changeset	216 self.safe_mode = safe_mode
3c160414da2e initial upload shiltemann parents: diff changeset	217
3c160414da2e initial upload shiltemann parents: diff changeset	218 # Massaging and building the "extras" info.
3c160414da2e initial upload shiltemann parents: diff changeset	219 if self.extras is None:
3c160414da2e initial upload shiltemann parents: diff changeset	220 self.extras = {}
3c160414da2e initial upload shiltemann parents: diff changeset	221 elif not isinstance(self.extras, dict):
3c160414da2e initial upload shiltemann parents: diff changeset	222 self.extras = dict([(e, None) for e in self.extras])
3c160414da2e initial upload shiltemann parents: diff changeset	223 if extras:
3c160414da2e initial upload shiltemann parents: diff changeset	224 if not isinstance(extras, dict):
3c160414da2e initial upload shiltemann parents: diff changeset	225 extras = dict([(e, None) for e in extras])
3c160414da2e initial upload shiltemann parents: diff changeset	226 self.extras.update(extras)
3c160414da2e initial upload shiltemann parents: diff changeset	227 assert isinstance(self.extras, dict)
3c160414da2e initial upload shiltemann parents: diff changeset	228 if "toc" in self.extras and not "header-ids" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	229 self.extras["header-ids"] = None # "toc" implies "header-ids"
3c160414da2e initial upload shiltemann parents: diff changeset	230 self._instance_extras = self.extras.copy()
3c160414da2e initial upload shiltemann parents: diff changeset	231
3c160414da2e initial upload shiltemann parents: diff changeset	232 self.link_patterns = link_patterns
3c160414da2e initial upload shiltemann parents: diff changeset	233 self.use_file_vars = use_file_vars
3c160414da2e initial upload shiltemann parents: diff changeset	234 self._outdent_re = re.compile(r'^(\t\|[ ]{1,%d})' % tab_width, re.M)
3c160414da2e initial upload shiltemann parents: diff changeset	235
3c160414da2e initial upload shiltemann parents: diff changeset	236 self._escape_table = g_escape_table.copy()
3c160414da2e initial upload shiltemann parents: diff changeset	237 if "smarty-pants" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	238 self._escape_table['"'] = _hash_text('"')
3c160414da2e initial upload shiltemann parents: diff changeset	239 self._escape_table["'"] = _hash_text("'")
3c160414da2e initial upload shiltemann parents: diff changeset	240
3c160414da2e initial upload shiltemann parents: diff changeset	241 def reset(self):
3c160414da2e initial upload shiltemann parents: diff changeset	242 self.urls = {}
3c160414da2e initial upload shiltemann parents: diff changeset	243 self.titles = {}
3c160414da2e initial upload shiltemann parents: diff changeset	244 self.html_blocks = {}
3c160414da2e initial upload shiltemann parents: diff changeset	245 self.html_spans = {}
3c160414da2e initial upload shiltemann parents: diff changeset	246 self.list_level = 0
3c160414da2e initial upload shiltemann parents: diff changeset	247 self.extras = self._instance_extras.copy()
3c160414da2e initial upload shiltemann parents: diff changeset	248 if "footnotes" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	249 self.footnotes = {}
3c160414da2e initial upload shiltemann parents: diff changeset	250 self.footnote_ids = []
3c160414da2e initial upload shiltemann parents: diff changeset	251 if "header-ids" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	252 self._count_from_header_id = {} # no `defaultdict` in Python 2.4
3c160414da2e initial upload shiltemann parents: diff changeset	253 if "metadata" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	254 self.metadata = {}
3c160414da2e initial upload shiltemann parents: diff changeset	255
3c160414da2e initial upload shiltemann parents: diff changeset	256 # Per <https://developer.mozilla.org/en-US/docs/HTML/Element/a> "rel"
3c160414da2e initial upload shiltemann parents: diff changeset	257 # should only be used in <a> tags with an "href" attribute.
3c160414da2e initial upload shiltemann parents: diff changeset	258 _a_nofollow = re.compile(r"<(a)([^>]*href=)", re.IGNORECASE)
3c160414da2e initial upload shiltemann parents: diff changeset	259
3c160414da2e initial upload shiltemann parents: diff changeset	260 def convert(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	261 """Convert the given text."""
3c160414da2e initial upload shiltemann parents: diff changeset	262 # Main function. The order in which other subs are called here is
3c160414da2e initial upload shiltemann parents: diff changeset	263 # essential. Link and image substitutions need to happen before
3c160414da2e initial upload shiltemann parents: diff changeset	264 # _EscapeSpecialChars(), so that any *'s or _'s in the <a>
3c160414da2e initial upload shiltemann parents: diff changeset	265 # and <img> tags get encoded.
3c160414da2e initial upload shiltemann parents: diff changeset	266
3c160414da2e initial upload shiltemann parents: diff changeset	267 # Clear the global hashes. If we don't clear these, you get conflicts
3c160414da2e initial upload shiltemann parents: diff changeset	268 # from other articles when generating a page which contains more than
3c160414da2e initial upload shiltemann parents: diff changeset	269 # one article (e.g. an index page that shows the N most recent
3c160414da2e initial upload shiltemann parents: diff changeset	270 # articles):
3c160414da2e initial upload shiltemann parents: diff changeset	271 self.reset()
3c160414da2e initial upload shiltemann parents: diff changeset	272
3c160414da2e initial upload shiltemann parents: diff changeset	273 if not isinstance(text, unicode):
3c160414da2e initial upload shiltemann parents: diff changeset	274 #TODO: perhaps shouldn't presume UTF-8 for string input?
3c160414da2e initial upload shiltemann parents: diff changeset	275 text = unicode(text, 'utf-8')
3c160414da2e initial upload shiltemann parents: diff changeset	276
3c160414da2e initial upload shiltemann parents: diff changeset	277 if self.use_file_vars:
3c160414da2e initial upload shiltemann parents: diff changeset	278 # Look for emacs-style file variable hints.
3c160414da2e initial upload shiltemann parents: diff changeset	279 emacs_vars = self._get_emacs_vars(text)
3c160414da2e initial upload shiltemann parents: diff changeset	280 if "markdown-extras" in emacs_vars:
3c160414da2e initial upload shiltemann parents: diff changeset	281 splitter = re.compile("[ ,]+")
3c160414da2e initial upload shiltemann parents: diff changeset	282 for e in splitter.split(emacs_vars["markdown-extras"]):
3c160414da2e initial upload shiltemann parents: diff changeset	283 if '=' in e:
3c160414da2e initial upload shiltemann parents: diff changeset	284 ename, earg = e.split('=', 1)
3c160414da2e initial upload shiltemann parents: diff changeset	285 try:
3c160414da2e initial upload shiltemann parents: diff changeset	286 earg = int(earg)
3c160414da2e initial upload shiltemann parents: diff changeset	287 except ValueError:
3c160414da2e initial upload shiltemann parents: diff changeset	288 pass
3c160414da2e initial upload shiltemann parents: diff changeset	289 else:
3c160414da2e initial upload shiltemann parents: diff changeset	290 ename, earg = e, None
3c160414da2e initial upload shiltemann parents: diff changeset	291 self.extras[ename] = earg
3c160414da2e initial upload shiltemann parents: diff changeset	292
3c160414da2e initial upload shiltemann parents: diff changeset	293 # Standardize line endings:
3c160414da2e initial upload shiltemann parents: diff changeset	294 text = re.sub("\r\n\|\r", "\n", text)
3c160414da2e initial upload shiltemann parents: diff changeset	295
3c160414da2e initial upload shiltemann parents: diff changeset	296 # Make sure $text ends with a couple of newlines:
3c160414da2e initial upload shiltemann parents: diff changeset	297 text += "\n\n"
3c160414da2e initial upload shiltemann parents: diff changeset	298
3c160414da2e initial upload shiltemann parents: diff changeset	299 # Convert all tabs to spaces.
3c160414da2e initial upload shiltemann parents: diff changeset	300 text = self._detab(text)
3c160414da2e initial upload shiltemann parents: diff changeset	301
3c160414da2e initial upload shiltemann parents: diff changeset	302 # Strip any lines consisting only of spaces and tabs.
3c160414da2e initial upload shiltemann parents: diff changeset	303 # This makes subsequent regexen easier to write, because we can
3c160414da2e initial upload shiltemann parents: diff changeset	304 # match consecutive blank lines with /\n+/ instead of something
3c160414da2e initial upload shiltemann parents: diff changeset	305 # contorted like /[ \t]*\n+/ .
3c160414da2e initial upload shiltemann parents: diff changeset	306 text = self._ws_only_line_re.sub("", text)
3c160414da2e initial upload shiltemann parents: diff changeset	307
3c160414da2e initial upload shiltemann parents: diff changeset	308 # strip metadata from head and extract
3c160414da2e initial upload shiltemann parents: diff changeset	309 if "metadata" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	310 text = self._extract_metadata(text)
3c160414da2e initial upload shiltemann parents: diff changeset	311
3c160414da2e initial upload shiltemann parents: diff changeset	312 text = self.preprocess(text)
3c160414da2e initial upload shiltemann parents: diff changeset	313
3c160414da2e initial upload shiltemann parents: diff changeset	314 if "fenced-code-blocks" in self.extras and not self.safe_mode:
3c160414da2e initial upload shiltemann parents: diff changeset	315 text = self._do_fenced_code_blocks(text)
3c160414da2e initial upload shiltemann parents: diff changeset	316
3c160414da2e initial upload shiltemann parents: diff changeset	317 if self.safe_mode:
3c160414da2e initial upload shiltemann parents: diff changeset	318 text = self._hash_html_spans(text)
3c160414da2e initial upload shiltemann parents: diff changeset	319
3c160414da2e initial upload shiltemann parents: diff changeset	320 # Turn block-level HTML blocks into hash entries
3c160414da2e initial upload shiltemann parents: diff changeset	321 text = self._hash_html_blocks(text, raw=True)
3c160414da2e initial upload shiltemann parents: diff changeset	322
3c160414da2e initial upload shiltemann parents: diff changeset	323 if "fenced-code-blocks" in self.extras and self.safe_mode:
3c160414da2e initial upload shiltemann parents: diff changeset	324 text = self._do_fenced_code_blocks(text)
3c160414da2e initial upload shiltemann parents: diff changeset	325
3c160414da2e initial upload shiltemann parents: diff changeset	326 # Strip link definitions, store in hashes.
3c160414da2e initial upload shiltemann parents: diff changeset	327 if "footnotes" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	328 # Must do footnotes first because an unlucky footnote defn
3c160414da2e initial upload shiltemann parents: diff changeset	329 # looks like a link defn:
3c160414da2e initial upload shiltemann parents: diff changeset	330 # [^4]: this "looks like a link defn"
3c160414da2e initial upload shiltemann parents: diff changeset	331 text = self._strip_footnote_definitions(text)
3c160414da2e initial upload shiltemann parents: diff changeset	332 text = self._strip_link_definitions(text)
3c160414da2e initial upload shiltemann parents: diff changeset	333
3c160414da2e initial upload shiltemann parents: diff changeset	334 text = self._run_block_gamut(text)
3c160414da2e initial upload shiltemann parents: diff changeset	335
3c160414da2e initial upload shiltemann parents: diff changeset	336 if "footnotes" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	337 text = self._add_footnotes(text)
3c160414da2e initial upload shiltemann parents: diff changeset	338
3c160414da2e initial upload shiltemann parents: diff changeset	339 text = self.postprocess(text)
3c160414da2e initial upload shiltemann parents: diff changeset	340
3c160414da2e initial upload shiltemann parents: diff changeset	341 text = self._unescape_special_chars(text)
3c160414da2e initial upload shiltemann parents: diff changeset	342
3c160414da2e initial upload shiltemann parents: diff changeset	343 if self.safe_mode:
3c160414da2e initial upload shiltemann parents: diff changeset	344 text = self._unhash_html_spans(text)
3c160414da2e initial upload shiltemann parents: diff changeset	345
3c160414da2e initial upload shiltemann parents: diff changeset	346 if "nofollow" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	347 text = self._a_nofollow.sub(r'<\1 rel="nofollow"\2', text)
3c160414da2e initial upload shiltemann parents: diff changeset	348
3c160414da2e initial upload shiltemann parents: diff changeset	349 text += "\n"
3c160414da2e initial upload shiltemann parents: diff changeset	350
3c160414da2e initial upload shiltemann parents: diff changeset	351 rv = UnicodeWithAttrs(text)
3c160414da2e initial upload shiltemann parents: diff changeset	352 if "toc" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	353 rv._toc = self._toc
3c160414da2e initial upload shiltemann parents: diff changeset	354 if "metadata" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	355 rv.metadata = self.metadata
3c160414da2e initial upload shiltemann parents: diff changeset	356 return rv
3c160414da2e initial upload shiltemann parents: diff changeset	357
3c160414da2e initial upload shiltemann parents: diff changeset	358 def postprocess(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	359 """A hook for subclasses to do some postprocessing of the html, if
3c160414da2e initial upload shiltemann parents: diff changeset	360 desired. This is called before unescaping of special chars and
3c160414da2e initial upload shiltemann parents: diff changeset	361 unhashing of raw HTML spans.
3c160414da2e initial upload shiltemann parents: diff changeset	362 """
3c160414da2e initial upload shiltemann parents: diff changeset	363 return text
3c160414da2e initial upload shiltemann parents: diff changeset	364
3c160414da2e initial upload shiltemann parents: diff changeset	365 def preprocess(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	366 """A hook for subclasses to do some preprocessing of the Markdown, if
3c160414da2e initial upload shiltemann parents: diff changeset	367 desired. This is called after basic formatting of the text, but prior
3c160414da2e initial upload shiltemann parents: diff changeset	368 to any extras, safe mode, etc. processing.
3c160414da2e initial upload shiltemann parents: diff changeset	369 """
3c160414da2e initial upload shiltemann parents: diff changeset	370 return text
3c160414da2e initial upload shiltemann parents: diff changeset	371
3c160414da2e initial upload shiltemann parents: diff changeset	372 # Is metadata if the content starts with '---'-fenced `key: value`
3c160414da2e initial upload shiltemann parents: diff changeset	373 # pairs. E.g. (indented for presentation):
3c160414da2e initial upload shiltemann parents: diff changeset	374 # ---
3c160414da2e initial upload shiltemann parents: diff changeset	375 # foo: bar
3c160414da2e initial upload shiltemann parents: diff changeset	376 # another-var: blah blah
3c160414da2e initial upload shiltemann parents: diff changeset	377 # ---
3c160414da2e initial upload shiltemann parents: diff changeset	378 _metadata_pat = re.compile("""^---[ \t]\n((?:[ \t][^ \t:]+[ \t]:[^\n]\n)+)---[ \t]*\n""")
3c160414da2e initial upload shiltemann parents: diff changeset	379
3c160414da2e initial upload shiltemann parents: diff changeset	380 def _extract_metadata(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	381 # fast test
3c160414da2e initial upload shiltemann parents: diff changeset	382 if not text.startswith("---"):
3c160414da2e initial upload shiltemann parents: diff changeset	383 return text
3c160414da2e initial upload shiltemann parents: diff changeset	384 match = self._metadata_pat.match(text)
3c160414da2e initial upload shiltemann parents: diff changeset	385 if not match:
3c160414da2e initial upload shiltemann parents: diff changeset	386 return text
3c160414da2e initial upload shiltemann parents: diff changeset	387
3c160414da2e initial upload shiltemann parents: diff changeset	388 tail = text[len(match.group(0)):]
3c160414da2e initial upload shiltemann parents: diff changeset	389 metadata_str = match.group(1).strip()
3c160414da2e initial upload shiltemann parents: diff changeset	390 for line in metadata_str.split('\n'):
3c160414da2e initial upload shiltemann parents: diff changeset	391 key, value = line.split(':', 1)
3c160414da2e initial upload shiltemann parents: diff changeset	392 self.metadata[key.strip()] = value.strip()
3c160414da2e initial upload shiltemann parents: diff changeset	393
3c160414da2e initial upload shiltemann parents: diff changeset	394 return tail
3c160414da2e initial upload shiltemann parents: diff changeset	395
3c160414da2e initial upload shiltemann parents: diff changeset	396
3c160414da2e initial upload shiltemann parents: diff changeset	397 _emacs_oneliner_vars_pat = re.compile(r"-\-\s([^\r\n]?)\s-\*-", re.UNICODE)
3c160414da2e initial upload shiltemann parents: diff changeset	398 # This regular expression is intended to match blocks like this:
3c160414da2e initial upload shiltemann parents: diff changeset	399 # PREFIX Local Variables: SUFFIX
3c160414da2e initial upload shiltemann parents: diff changeset	400 # PREFIX mode: Tcl SUFFIX
3c160414da2e initial upload shiltemann parents: diff changeset	401 # PREFIX End: SUFFIX
3c160414da2e initial upload shiltemann parents: diff changeset	402 # Some notes:
3c160414da2e initial upload shiltemann parents: diff changeset	403 # - "[ \t]" is used instead of "\s" to specifically exclude newlines
3c160414da2e initial upload shiltemann parents: diff changeset	404 # - "(\r\n\|\n\|\r)" is used instead of "$" because the sre engine does
3c160414da2e initial upload shiltemann parents: diff changeset	405 # not like anything other than Unix-style line terminators.
3c160414da2e initial upload shiltemann parents: diff changeset	406 _emacs_local_vars_pat = re.compile(r"""^
3c160414da2e initial upload shiltemann parents: diff changeset	407 (?P<prefix>(?:[^\r\n\|\n\|\r])*?)
3c160414da2e initial upload shiltemann parents: diff changeset	408 [\ \t]Local\ Variables:[\ \t]
3c160414da2e initial upload shiltemann parents: diff changeset	409 (?P<suffix>.*?)(?:\r\n\|\n\|\r)
3c160414da2e initial upload shiltemann parents: diff changeset	410 (?P<content>.*?\1End:)
3c160414da2e initial upload shiltemann parents: diff changeset	411 """, re.IGNORECASE \| re.MULTILINE \| re.DOTALL \| re.VERBOSE)
3c160414da2e initial upload shiltemann parents: diff changeset	412
3c160414da2e initial upload shiltemann parents: diff changeset	413 def _get_emacs_vars(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	414 """Return a dictionary of emacs-style local variables.
3c160414da2e initial upload shiltemann parents: diff changeset	415
3c160414da2e initial upload shiltemann parents: diff changeset	416 Parsing is done loosely according to this spec (and according to
3c160414da2e initial upload shiltemann parents: diff changeset	417 some in-practice deviations from this):
3c160414da2e initial upload shiltemann parents: diff changeset	418 http://www.gnu.org/software/emacs/manual/html_node/emacs/Specifying-File-Variables.html#Specifying-File-Variables
3c160414da2e initial upload shiltemann parents: diff changeset	419 """
3c160414da2e initial upload shiltemann parents: diff changeset	420 emacs_vars = {}
3c160414da2e initial upload shiltemann parents: diff changeset	421 SIZE = pow(2, 13) # 8kB
3c160414da2e initial upload shiltemann parents: diff changeset	422
3c160414da2e initial upload shiltemann parents: diff changeset	423 # Search near the start for a '-*-'-style one-liner of variables.
3c160414da2e initial upload shiltemann parents: diff changeset	424 head = text[:SIZE]
3c160414da2e initial upload shiltemann parents: diff changeset	425 if "-*-" in head:
3c160414da2e initial upload shiltemann parents: diff changeset	426 match = self._emacs_oneliner_vars_pat.search(head)
3c160414da2e initial upload shiltemann parents: diff changeset	427 if match:
3c160414da2e initial upload shiltemann parents: diff changeset	428 emacs_vars_str = match.group(1)
3c160414da2e initial upload shiltemann parents: diff changeset	429 assert '\n' not in emacs_vars_str
3c160414da2e initial upload shiltemann parents: diff changeset	430 emacs_var_strs = [s.strip() for s in emacs_vars_str.split(';')
3c160414da2e initial upload shiltemann parents: diff changeset	431 if s.strip()]
3c160414da2e initial upload shiltemann parents: diff changeset	432 if len(emacs_var_strs) == 1 and ':' not in emacs_var_strs[0]:
3c160414da2e initial upload shiltemann parents: diff changeset	433 # While not in the spec, this form is allowed by emacs:
3c160414da2e initial upload shiltemann parents: diff changeset	434 # -- Tcl --
3c160414da2e initial upload shiltemann parents: diff changeset	435 # where the implied "variable" is "mode". This form
3c160414da2e initial upload shiltemann parents: diff changeset	436 # is only allowed if there are no other variables.
3c160414da2e initial upload shiltemann parents: diff changeset	437 emacs_vars["mode"] = emacs_var_strs[0].strip()
3c160414da2e initial upload shiltemann parents: diff changeset	438 else:
3c160414da2e initial upload shiltemann parents: diff changeset	439 for emacs_var_str in emacs_var_strs:
3c160414da2e initial upload shiltemann parents: diff changeset	440 try:
3c160414da2e initial upload shiltemann parents: diff changeset	441 variable, value = emacs_var_str.strip().split(':', 1)
3c160414da2e initial upload shiltemann parents: diff changeset	442 except ValueError:
3c160414da2e initial upload shiltemann parents: diff changeset	443 log.debug("emacs variables error: malformed -*- "
3c160414da2e initial upload shiltemann parents: diff changeset	444 "line: %r", emacs_var_str)
3c160414da2e initial upload shiltemann parents: diff changeset	445 continue
3c160414da2e initial upload shiltemann parents: diff changeset	446 # Lowercase the variable name because Emacs allows "Mode"
3c160414da2e initial upload shiltemann parents: diff changeset	447 # or "mode" or "MoDe", etc.
3c160414da2e initial upload shiltemann parents: diff changeset	448 emacs_vars[variable.lower()] = value.strip()
3c160414da2e initial upload shiltemann parents: diff changeset	449
3c160414da2e initial upload shiltemann parents: diff changeset	450 tail = text[-SIZE:]
3c160414da2e initial upload shiltemann parents: diff changeset	451 if "Local Variables" in tail:
3c160414da2e initial upload shiltemann parents: diff changeset	452 match = self._emacs_local_vars_pat.search(tail)
3c160414da2e initial upload shiltemann parents: diff changeset	453 if match:
3c160414da2e initial upload shiltemann parents: diff changeset	454 prefix = match.group("prefix")
3c160414da2e initial upload shiltemann parents: diff changeset	455 suffix = match.group("suffix")
3c160414da2e initial upload shiltemann parents: diff changeset	456 lines = match.group("content").splitlines(0)
3c160414da2e initial upload shiltemann parents: diff changeset	457 #print "prefix=%r, suffix=%r, content=%r, lines: %s"\
3c160414da2e initial upload shiltemann parents: diff changeset	458 # % (prefix, suffix, match.group("content"), lines)
3c160414da2e initial upload shiltemann parents: diff changeset	459
3c160414da2e initial upload shiltemann parents: diff changeset	460 # Validate the Local Variables block: proper prefix and suffix
3c160414da2e initial upload shiltemann parents: diff changeset	461 # usage.
3c160414da2e initial upload shiltemann parents: diff changeset	462 for i, line in enumerate(lines):
3c160414da2e initial upload shiltemann parents: diff changeset	463 if not line.startswith(prefix):
3c160414da2e initial upload shiltemann parents: diff changeset	464 log.debug("emacs variables error: line '%s' "
3c160414da2e initial upload shiltemann parents: diff changeset	465 "does not use proper prefix '%s'"
3c160414da2e initial upload shiltemann parents: diff changeset	466 % (line, prefix))
3c160414da2e initial upload shiltemann parents: diff changeset	467 return {}
3c160414da2e initial upload shiltemann parents: diff changeset	468 # Don't validate suffix on last line. Emacs doesn't care,
3c160414da2e initial upload shiltemann parents: diff changeset	469 # neither should we.
3c160414da2e initial upload shiltemann parents: diff changeset	470 if i != len(lines)-1 and not line.endswith(suffix):
3c160414da2e initial upload shiltemann parents: diff changeset	471 log.debug("emacs variables error: line '%s' "
3c160414da2e initial upload shiltemann parents: diff changeset	472 "does not use proper suffix '%s'"
3c160414da2e initial upload shiltemann parents: diff changeset	473 % (line, suffix))
3c160414da2e initial upload shiltemann parents: diff changeset	474 return {}
3c160414da2e initial upload shiltemann parents: diff changeset	475
3c160414da2e initial upload shiltemann parents: diff changeset	476 # Parse out one emacs var per line.
3c160414da2e initial upload shiltemann parents: diff changeset	477 continued_for = None
3c160414da2e initial upload shiltemann parents: diff changeset	478 for line in lines[:-1]: # no var on the last line ("PREFIX End:")
3c160414da2e initial upload shiltemann parents: diff changeset	479 if prefix: line = line[len(prefix):] # strip prefix
3c160414da2e initial upload shiltemann parents: diff changeset	480 if suffix: line = line[:-len(suffix)] # strip suffix
3c160414da2e initial upload shiltemann parents: diff changeset	481 line = line.strip()
3c160414da2e initial upload shiltemann parents: diff changeset	482 if continued_for:
3c160414da2e initial upload shiltemann parents: diff changeset	483 variable = continued_for
3c160414da2e initial upload shiltemann parents: diff changeset	484 if line.endswith('\\'):
3c160414da2e initial upload shiltemann parents: diff changeset	485 line = line[:-1].rstrip()
3c160414da2e initial upload shiltemann parents: diff changeset	486 else:
3c160414da2e initial upload shiltemann parents: diff changeset	487 continued_for = None
3c160414da2e initial upload shiltemann parents: diff changeset	488 emacs_vars[variable] += ' ' + line
3c160414da2e initial upload shiltemann parents: diff changeset	489 else:
3c160414da2e initial upload shiltemann parents: diff changeset	490 try:
3c160414da2e initial upload shiltemann parents: diff changeset	491 variable, value = line.split(':', 1)
3c160414da2e initial upload shiltemann parents: diff changeset	492 except ValueError:
3c160414da2e initial upload shiltemann parents: diff changeset	493 log.debug("local variables error: missing colon "
3c160414da2e initial upload shiltemann parents: diff changeset	494 "in local variables entry: '%s'" % line)
3c160414da2e initial upload shiltemann parents: diff changeset	495 continue
3c160414da2e initial upload shiltemann parents: diff changeset	496 # Do NOT lowercase the variable name, because Emacs only
3c160414da2e initial upload shiltemann parents: diff changeset	497 # allows "mode" (and not "Mode", "MoDe", etc.) in this block.
3c160414da2e initial upload shiltemann parents: diff changeset	498 value = value.strip()
3c160414da2e initial upload shiltemann parents: diff changeset	499 if value.endswith('\\'):
3c160414da2e initial upload shiltemann parents: diff changeset	500 value = value[:-1].rstrip()
3c160414da2e initial upload shiltemann parents: diff changeset	501 continued_for = variable
3c160414da2e initial upload shiltemann parents: diff changeset	502 else:
3c160414da2e initial upload shiltemann parents: diff changeset	503 continued_for = None
3c160414da2e initial upload shiltemann parents: diff changeset	504 emacs_vars[variable] = value
3c160414da2e initial upload shiltemann parents: diff changeset	505
3c160414da2e initial upload shiltemann parents: diff changeset	506 # Unquote values.
3c160414da2e initial upload shiltemann parents: diff changeset	507 for var, val in list(emacs_vars.items()):
3c160414da2e initial upload shiltemann parents: diff changeset	508 if len(val) > 1 and (val.startswith('"') and val.endswith('"')
3c160414da2e initial upload shiltemann parents: diff changeset	509 or val.startswith('"') and val.endswith('"')):
3c160414da2e initial upload shiltemann parents: diff changeset	510 emacs_vars[var] = val[1:-1]
3c160414da2e initial upload shiltemann parents: diff changeset	511
3c160414da2e initial upload shiltemann parents: diff changeset	512 return emacs_vars
3c160414da2e initial upload shiltemann parents: diff changeset	513
3c160414da2e initial upload shiltemann parents: diff changeset	514 # Cribbed from a post by Bart Lateur:
3c160414da2e initial upload shiltemann parents: diff changeset	515 # <http://www.nntp.perl.org/group/perl.macperl.anyperl/154>
3c160414da2e initial upload shiltemann parents: diff changeset	516 _detab_re = re.compile(r'(.*?)\t', re.M)
3c160414da2e initial upload shiltemann parents: diff changeset	517 def _detab_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	518 g1 = match.group(1)
3c160414da2e initial upload shiltemann parents: diff changeset	519 return g1 + (' ' * (self.tab_width - len(g1) % self.tab_width))
3c160414da2e initial upload shiltemann parents: diff changeset	520 def _detab(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	521 r"""Remove (leading?) tabs from a file.
3c160414da2e initial upload shiltemann parents: diff changeset	522
3c160414da2e initial upload shiltemann parents: diff changeset	523 >>> m = Markdown()
3c160414da2e initial upload shiltemann parents: diff changeset	524 >>> m._detab("\tfoo")
3c160414da2e initial upload shiltemann parents: diff changeset	525 ' foo'
3c160414da2e initial upload shiltemann parents: diff changeset	526 >>> m._detab(" \tfoo")
3c160414da2e initial upload shiltemann parents: diff changeset	527 ' foo'
3c160414da2e initial upload shiltemann parents: diff changeset	528 >>> m._detab("\t foo")
3c160414da2e initial upload shiltemann parents: diff changeset	529 ' foo'
3c160414da2e initial upload shiltemann parents: diff changeset	530 >>> m._detab(" foo")
3c160414da2e initial upload shiltemann parents: diff changeset	531 ' foo'
3c160414da2e initial upload shiltemann parents: diff changeset	532 >>> m._detab(" foo\n\tbar\tblam")
3c160414da2e initial upload shiltemann parents: diff changeset	533 ' foo\n bar blam'
3c160414da2e initial upload shiltemann parents: diff changeset	534 """
3c160414da2e initial upload shiltemann parents: diff changeset	535 if '\t' not in text:
3c160414da2e initial upload shiltemann parents: diff changeset	536 return text
3c160414da2e initial upload shiltemann parents: diff changeset	537 return self._detab_re.subn(self._detab_sub, text)[0]
3c160414da2e initial upload shiltemann parents: diff changeset	538
3c160414da2e initial upload shiltemann parents: diff changeset	539 # I broke out the html5 tags here and add them to _block_tags_a and
3c160414da2e initial upload shiltemann parents: diff changeset	540 # _block_tags_b. This way html5 tags are easy to keep track of.
3c160414da2e initial upload shiltemann parents: diff changeset	541 _html5tags = '\|article\|aside\|header\|hgroup\|footer\|nav\|section\|figure\|figcaption'
3c160414da2e initial upload shiltemann parents: diff changeset	542
3c160414da2e initial upload shiltemann parents: diff changeset	543 _block_tags_a = 'p\|div\|h[1-6]\|blockquote\|pre\|table\|dl\|ol\|ul\|script\|noscript\|form\|fieldset\|iframe\|math\|ins\|del'
3c160414da2e initial upload shiltemann parents: diff changeset	544 _block_tags_a += _html5tags
3c160414da2e initial upload shiltemann parents: diff changeset	545
3c160414da2e initial upload shiltemann parents: diff changeset	546 _strict_tag_block_re = re.compile(r"""
3c160414da2e initial upload shiltemann parents: diff changeset	547 ( # save in \1
3c160414da2e initial upload shiltemann parents: diff changeset	548 ^ # start of line (with re.M)
3c160414da2e initial upload shiltemann parents: diff changeset	549 <(%s) # start tag = \2
3c160414da2e initial upload shiltemann parents: diff changeset	550 \b # word break
3c160414da2e initial upload shiltemann parents: diff changeset	551 (.\n)? # any number of lines, minimally matching
3c160414da2e initial upload shiltemann parents: diff changeset	552 </\2> # the matching end tag
3c160414da2e initial upload shiltemann parents: diff changeset	553 [ \t]* # trailing spaces/tabs
3c160414da2e initial upload shiltemann parents: diff changeset	554 (?=\n+\|\Z) # followed by a newline or end of document
3c160414da2e initial upload shiltemann parents: diff changeset	555 )
3c160414da2e initial upload shiltemann parents: diff changeset	556 """ % _block_tags_a,
3c160414da2e initial upload shiltemann parents: diff changeset	557 re.X \| re.M)
3c160414da2e initial upload shiltemann parents: diff changeset	558
3c160414da2e initial upload shiltemann parents: diff changeset	559 _block_tags_b = 'p\|div\|h[1-6]\|blockquote\|pre\|table\|dl\|ol\|ul\|script\|noscript\|form\|fieldset\|iframe\|math'
3c160414da2e initial upload shiltemann parents: diff changeset	560 _block_tags_b += _html5tags
3c160414da2e initial upload shiltemann parents: diff changeset	561
3c160414da2e initial upload shiltemann parents: diff changeset	562 _liberal_tag_block_re = re.compile(r"""
3c160414da2e initial upload shiltemann parents: diff changeset	563 ( # save in \1
3c160414da2e initial upload shiltemann parents: diff changeset	564 ^ # start of line (with re.M)
3c160414da2e initial upload shiltemann parents: diff changeset	565 <(%s) # start tag = \2
3c160414da2e initial upload shiltemann parents: diff changeset	566 \b # word break
3c160414da2e initial upload shiltemann parents: diff changeset	567 (.\n)? # any number of lines, minimally matching
3c160414da2e initial upload shiltemann parents: diff changeset	568 .*</\2> # the matching end tag
3c160414da2e initial upload shiltemann parents: diff changeset	569 [ \t]* # trailing spaces/tabs
3c160414da2e initial upload shiltemann parents: diff changeset	570 (?=\n+\|\Z) # followed by a newline or end of document
3c160414da2e initial upload shiltemann parents: diff changeset	571 )
3c160414da2e initial upload shiltemann parents: diff changeset	572 """ % _block_tags_b,
3c160414da2e initial upload shiltemann parents: diff changeset	573 re.X \| re.M)
3c160414da2e initial upload shiltemann parents: diff changeset	574
3c160414da2e initial upload shiltemann parents: diff changeset	575 _html_markdown_attr_re = re.compile(
3c160414da2e initial upload shiltemann parents: diff changeset	576 r'''\s+markdown=("1"\|'1')''')
3c160414da2e initial upload shiltemann parents: diff changeset	577 def _hash_html_block_sub(self, match, raw=False):
3c160414da2e initial upload shiltemann parents: diff changeset	578 html = match.group(1)
3c160414da2e initial upload shiltemann parents: diff changeset	579 if raw and self.safe_mode:
3c160414da2e initial upload shiltemann parents: diff changeset	580 html = self._sanitize_html(html)
3c160414da2e initial upload shiltemann parents: diff changeset	581 elif 'markdown-in-html' in self.extras and 'markdown=' in html:
3c160414da2e initial upload shiltemann parents: diff changeset	582 first_line = html.split('\n', 1)[0]
3c160414da2e initial upload shiltemann parents: diff changeset	583 m = self._html_markdown_attr_re.search(first_line)
3c160414da2e initial upload shiltemann parents: diff changeset	584 if m:
3c160414da2e initial upload shiltemann parents: diff changeset	585 lines = html.split('\n')
3c160414da2e initial upload shiltemann parents: diff changeset	586 middle = '\n'.join(lines[1:-1])
3c160414da2e initial upload shiltemann parents: diff changeset	587 last_line = lines[-1]
3c160414da2e initial upload shiltemann parents: diff changeset	588 first_line = first_line[:m.start()] + first_line[m.end():]
3c160414da2e initial upload shiltemann parents: diff changeset	589 f_key = _hash_text(first_line)
3c160414da2e initial upload shiltemann parents: diff changeset	590 self.html_blocks[f_key] = first_line
3c160414da2e initial upload shiltemann parents: diff changeset	591 l_key = _hash_text(last_line)
3c160414da2e initial upload shiltemann parents: diff changeset	592 self.html_blocks[l_key] = last_line
3c160414da2e initial upload shiltemann parents: diff changeset	593 return ''.join(["\n\n", f_key,
3c160414da2e initial upload shiltemann parents: diff changeset	594 "\n\n", middle, "\n\n",
3c160414da2e initial upload shiltemann parents: diff changeset	595 l_key, "\n\n"])
3c160414da2e initial upload shiltemann parents: diff changeset	596 key = _hash_text(html)
3c160414da2e initial upload shiltemann parents: diff changeset	597 self.html_blocks[key] = html
3c160414da2e initial upload shiltemann parents: diff changeset	598 return "\n\n" + key + "\n\n"
3c160414da2e initial upload shiltemann parents: diff changeset	599
3c160414da2e initial upload shiltemann parents: diff changeset	600 def _hash_html_blocks(self, text, raw=False):
3c160414da2e initial upload shiltemann parents: diff changeset	601 """Hashify HTML blocks
3c160414da2e initial upload shiltemann parents: diff changeset	602
3c160414da2e initial upload shiltemann parents: diff changeset	603 We only want to do this for block-level HTML tags, such as headers,
3c160414da2e initial upload shiltemann parents: diff changeset	604 lists, and tables. That's because we still want to wrap <p>s around
3c160414da2e initial upload shiltemann parents: diff changeset	605 "paragraphs" that are wrapped in non-block-level tags, such as anchors,
3c160414da2e initial upload shiltemann parents: diff changeset	606 phrase emphasis, and spans. The list of tags we're looking for is
3c160414da2e initial upload shiltemann parents: diff changeset	607 hard-coded.
3c160414da2e initial upload shiltemann parents: diff changeset	608
3c160414da2e initial upload shiltemann parents: diff changeset	609 @param raw {boolean} indicates if these are raw HTML blocks in
3c160414da2e initial upload shiltemann parents: diff changeset	610 the original source. It makes a difference in "safe" mode.
3c160414da2e initial upload shiltemann parents: diff changeset	611 """
3c160414da2e initial upload shiltemann parents: diff changeset	612 if '<' not in text:
3c160414da2e initial upload shiltemann parents: diff changeset	613 return text
3c160414da2e initial upload shiltemann parents: diff changeset	614
3c160414da2e initial upload shiltemann parents: diff changeset	615 # Pass `raw` value into our calls to self._hash_html_block_sub.
3c160414da2e initial upload shiltemann parents: diff changeset	616 hash_html_block_sub = _curry(self._hash_html_block_sub, raw=raw)
3c160414da2e initial upload shiltemann parents: diff changeset	617
3c160414da2e initial upload shiltemann parents: diff changeset	618 # First, look for nested blocks, e.g.:
3c160414da2e initial upload shiltemann parents: diff changeset	619 # <div>
3c160414da2e initial upload shiltemann parents: diff changeset	620 # <div>
3c160414da2e initial upload shiltemann parents: diff changeset	621 # tags for inner block must be indented.
3c160414da2e initial upload shiltemann parents: diff changeset	622 # </div>
3c160414da2e initial upload shiltemann parents: diff changeset	623 # </div>
3c160414da2e initial upload shiltemann parents: diff changeset	624 #
3c160414da2e initial upload shiltemann parents: diff changeset	625 # The outermost tags must start at the left margin for this to match, and
3c160414da2e initial upload shiltemann parents: diff changeset	626 # the inner nested divs must be indented.
3c160414da2e initial upload shiltemann parents: diff changeset	627 # We need to do this before the next, more liberal match, because the next
3c160414da2e initial upload shiltemann parents: diff changeset	628 # match will start at the first `<div>` and stop at the first `</div>`.
3c160414da2e initial upload shiltemann parents: diff changeset	629 text = self._strict_tag_block_re.sub(hash_html_block_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	630
3c160414da2e initial upload shiltemann parents: diff changeset	631 # Now match more liberally, simply from `\n<tag>` to `</tag>\n`
3c160414da2e initial upload shiltemann parents: diff changeset	632 text = self._liberal_tag_block_re.sub(hash_html_block_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	633
3c160414da2e initial upload shiltemann parents: diff changeset	634 # Special case just for <hr />. It was easier to make a special
3c160414da2e initial upload shiltemann parents: diff changeset	635 # case than to make the other regex more complicated.
3c160414da2e initial upload shiltemann parents: diff changeset	636 if "<hr" in text:
3c160414da2e initial upload shiltemann parents: diff changeset	637 _hr_tag_re = _hr_tag_re_from_tab_width(self.tab_width)
3c160414da2e initial upload shiltemann parents: diff changeset	638 text = _hr_tag_re.sub(hash_html_block_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	639
3c160414da2e initial upload shiltemann parents: diff changeset	640 # Special case for standalone HTML comments:
3c160414da2e initial upload shiltemann parents: diff changeset	641 if "<!--" in text:
3c160414da2e initial upload shiltemann parents: diff changeset	642 start = 0
3c160414da2e initial upload shiltemann parents: diff changeset	643 while True:
3c160414da2e initial upload shiltemann parents: diff changeset	644 # Delimiters for next comment block.
3c160414da2e initial upload shiltemann parents: diff changeset	645 try:
3c160414da2e initial upload shiltemann parents: diff changeset	646 start_idx = text.index("<!--", start)
3c160414da2e initial upload shiltemann parents: diff changeset	647 except ValueError:
3c160414da2e initial upload shiltemann parents: diff changeset	648 break
3c160414da2e initial upload shiltemann parents: diff changeset	649 try:
3c160414da2e initial upload shiltemann parents: diff changeset	650 end_idx = text.index("-->", start_idx) + 3
3c160414da2e initial upload shiltemann parents: diff changeset	651 except ValueError:
3c160414da2e initial upload shiltemann parents: diff changeset	652 break
3c160414da2e initial upload shiltemann parents: diff changeset	653
3c160414da2e initial upload shiltemann parents: diff changeset	654 # Start position for next comment block search.
3c160414da2e initial upload shiltemann parents: diff changeset	655 start = end_idx
3c160414da2e initial upload shiltemann parents: diff changeset	656
3c160414da2e initial upload shiltemann parents: diff changeset	657 # Validate whitespace before comment.
3c160414da2e initial upload shiltemann parents: diff changeset	658 if start_idx:
3c160414da2e initial upload shiltemann parents: diff changeset	659 # - Up to `tab_width - 1` spaces before start_idx.
3c160414da2e initial upload shiltemann parents: diff changeset	660 for i in range(self.tab_width - 1):
3c160414da2e initial upload shiltemann parents: diff changeset	661 if text[start_idx - 1] != ' ':
3c160414da2e initial upload shiltemann parents: diff changeset	662 break
3c160414da2e initial upload shiltemann parents: diff changeset	663 start_idx -= 1
3c160414da2e initial upload shiltemann parents: diff changeset	664 if start_idx == 0:
3c160414da2e initial upload shiltemann parents: diff changeset	665 break
3c160414da2e initial upload shiltemann parents: diff changeset	666 # - Must be preceded by 2 newlines or hit the start of
3c160414da2e initial upload shiltemann parents: diff changeset	667 # the document.
3c160414da2e initial upload shiltemann parents: diff changeset	668 if start_idx == 0:
3c160414da2e initial upload shiltemann parents: diff changeset	669 pass
3c160414da2e initial upload shiltemann parents: diff changeset	670 elif start_idx == 1 and text[0] == '\n':
3c160414da2e initial upload shiltemann parents: diff changeset	671 start_idx = 0 # to match minute detail of Markdown.pl regex
3c160414da2e initial upload shiltemann parents: diff changeset	672 elif text[start_idx-2:start_idx] == '\n\n':
3c160414da2e initial upload shiltemann parents: diff changeset	673 pass
3c160414da2e initial upload shiltemann parents: diff changeset	674 else:
3c160414da2e initial upload shiltemann parents: diff changeset	675 break
3c160414da2e initial upload shiltemann parents: diff changeset	676
3c160414da2e initial upload shiltemann parents: diff changeset	677 # Validate whitespace after comment.
3c160414da2e initial upload shiltemann parents: diff changeset	678 # - Any number of spaces and tabs.
3c160414da2e initial upload shiltemann parents: diff changeset	679 while end_idx < len(text):
3c160414da2e initial upload shiltemann parents: diff changeset	680 if text[end_idx] not in ' \t':
3c160414da2e initial upload shiltemann parents: diff changeset	681 break
3c160414da2e initial upload shiltemann parents: diff changeset	682 end_idx += 1
3c160414da2e initial upload shiltemann parents: diff changeset	683 # - Must be following by 2 newlines or hit end of text.
3c160414da2e initial upload shiltemann parents: diff changeset	684 if text[end_idx:end_idx+2] not in ('', '\n', '\n\n'):
3c160414da2e initial upload shiltemann parents: diff changeset	685 continue
3c160414da2e initial upload shiltemann parents: diff changeset	686
3c160414da2e initial upload shiltemann parents: diff changeset	687 # Escape and hash (must match `_hash_html_block_sub`).
3c160414da2e initial upload shiltemann parents: diff changeset	688 html = text[start_idx:end_idx]
3c160414da2e initial upload shiltemann parents: diff changeset	689 if raw and self.safe_mode:
3c160414da2e initial upload shiltemann parents: diff changeset	690 html = self._sanitize_html(html)
3c160414da2e initial upload shiltemann parents: diff changeset	691 key = _hash_text(html)
3c160414da2e initial upload shiltemann parents: diff changeset	692 self.html_blocks[key] = html
3c160414da2e initial upload shiltemann parents: diff changeset	693 text = text[:start_idx] + "\n\n" + key + "\n\n" + text[end_idx:]
3c160414da2e initial upload shiltemann parents: diff changeset	694
3c160414da2e initial upload shiltemann parents: diff changeset	695 if "xml" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	696 # Treat XML processing instructions and namespaced one-liner
3c160414da2e initial upload shiltemann parents: diff changeset	697 # tags as if they were block HTML tags. E.g., if standalone
3c160414da2e initial upload shiltemann parents: diff changeset	698 # (i.e. are their own paragraph), the following do not get
3c160414da2e initial upload shiltemann parents: diff changeset	699 # wrapped in a <p> tag:
3c160414da2e initial upload shiltemann parents: diff changeset	700 # <?foo bar?>
3c160414da2e initial upload shiltemann parents: diff changeset	701 #
3c160414da2e initial upload shiltemann parents: diff changeset	702 # <xi:include xmlns:xi="http://www.w3.org/2001/XInclude" href="chapter_1.md"/>
3c160414da2e initial upload shiltemann parents: diff changeset	703 _xml_oneliner_re = _xml_oneliner_re_from_tab_width(self.tab_width)
3c160414da2e initial upload shiltemann parents: diff changeset	704 text = _xml_oneliner_re.sub(hash_html_block_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	705
3c160414da2e initial upload shiltemann parents: diff changeset	706 return text
3c160414da2e initial upload shiltemann parents: diff changeset	707
3c160414da2e initial upload shiltemann parents: diff changeset	708 def _strip_link_definitions(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	709 # Strips link definitions from text, stores the URLs and titles in
3c160414da2e initial upload shiltemann parents: diff changeset	710 # hash references.
3c160414da2e initial upload shiltemann parents: diff changeset	711 less_than_tab = self.tab_width - 1
3c160414da2e initial upload shiltemann parents: diff changeset	712
3c160414da2e initial upload shiltemann parents: diff changeset	713 # Link defs are in the form:
3c160414da2e initial upload shiltemann parents: diff changeset	714 # [id]: url "optional title"
3c160414da2e initial upload shiltemann parents: diff changeset	715 _link_def_re = re.compile(r"""
3c160414da2e initial upload shiltemann parents: diff changeset	716 ^[ ]{0,%d}\[(.+)\]: # id = \1
3c160414da2e initial upload shiltemann parents: diff changeset	717 [ \t]*
3c160414da2e initial upload shiltemann parents: diff changeset	718 \n? # maybe one newline
3c160414da2e initial upload shiltemann parents: diff changeset	719 [ \t]*
3c160414da2e initial upload shiltemann parents: diff changeset	720 <?(.+?)>? # url = \2
3c160414da2e initial upload shiltemann parents: diff changeset	721 [ \t]*
3c160414da2e initial upload shiltemann parents: diff changeset	722 (?:
3c160414da2e initial upload shiltemann parents: diff changeset	723 \n? # maybe one newline
3c160414da2e initial upload shiltemann parents: diff changeset	724 [ \t]*
3c160414da2e initial upload shiltemann parents: diff changeset	725 (?<=\s) # lookbehind for whitespace
3c160414da2e initial upload shiltemann parents: diff changeset	726 ['"(]
3c160414da2e initial upload shiltemann parents: diff changeset	727 ([^\n]*) # title = \3
3c160414da2e initial upload shiltemann parents: diff changeset	728 ['")]
3c160414da2e initial upload shiltemann parents: diff changeset	729 [ \t]*
3c160414da2e initial upload shiltemann parents: diff changeset	730 )? # title is optional
3c160414da2e initial upload shiltemann parents: diff changeset	731 (?:\n+\|\Z)
3c160414da2e initial upload shiltemann parents: diff changeset	732 """ % less_than_tab, re.X \| re.M \| re.U)
3c160414da2e initial upload shiltemann parents: diff changeset	733 return _link_def_re.sub(self._extract_link_def_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	734
3c160414da2e initial upload shiltemann parents: diff changeset	735 def _extract_link_def_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	736 id, url, title = match.groups()
3c160414da2e initial upload shiltemann parents: diff changeset	737 key = id.lower() # Link IDs are case-insensitive
3c160414da2e initial upload shiltemann parents: diff changeset	738 self.urls[key] = self._encode_amps_and_angles(url)
3c160414da2e initial upload shiltemann parents: diff changeset	739 if title:
3c160414da2e initial upload shiltemann parents: diff changeset	740 self.titles[key] = title
3c160414da2e initial upload shiltemann parents: diff changeset	741 return ""
3c160414da2e initial upload shiltemann parents: diff changeset	742
3c160414da2e initial upload shiltemann parents: diff changeset	743 def _extract_footnote_def_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	744 id, text = match.groups()
3c160414da2e initial upload shiltemann parents: diff changeset	745 text = _dedent(text, skip_first_line=not text.startswith('\n')).strip()
3c160414da2e initial upload shiltemann parents: diff changeset	746 normed_id = re.sub(r'\W', '-', id)
3c160414da2e initial upload shiltemann parents: diff changeset	747 # Ensure footnote text ends with a couple newlines (for some
3c160414da2e initial upload shiltemann parents: diff changeset	748 # block gamut matches).
3c160414da2e initial upload shiltemann parents: diff changeset	749 self.footnotes[normed_id] = text + "\n\n"
3c160414da2e initial upload shiltemann parents: diff changeset	750 return ""
3c160414da2e initial upload shiltemann parents: diff changeset	751
3c160414da2e initial upload shiltemann parents: diff changeset	752 def _strip_footnote_definitions(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	753 """A footnote definition looks like this:
3c160414da2e initial upload shiltemann parents: diff changeset	754
3c160414da2e initial upload shiltemann parents: diff changeset	755 [^note-id]: Text of the note.
3c160414da2e initial upload shiltemann parents: diff changeset	756
3c160414da2e initial upload shiltemann parents: diff changeset	757 May include one or more indented paragraphs.
3c160414da2e initial upload shiltemann parents: diff changeset	758
3c160414da2e initial upload shiltemann parents: diff changeset	759 Where,
3c160414da2e initial upload shiltemann parents: diff changeset	760 - The 'note-id' can be pretty much anything, though typically it
3c160414da2e initial upload shiltemann parents: diff changeset	761 is the number of the footnote.
3c160414da2e initial upload shiltemann parents: diff changeset	762 - The first paragraph may start on the next line, like so:
3c160414da2e initial upload shiltemann parents: diff changeset	763
3c160414da2e initial upload shiltemann parents: diff changeset	764 [^note-id]:
3c160414da2e initial upload shiltemann parents: diff changeset	765 Text of the note.
3c160414da2e initial upload shiltemann parents: diff changeset	766 """
3c160414da2e initial upload shiltemann parents: diff changeset	767 less_than_tab = self.tab_width - 1
3c160414da2e initial upload shiltemann parents: diff changeset	768 footnote_def_re = re.compile(r'''
3c160414da2e initial upload shiltemann parents: diff changeset	769 ^[ ]{0,%d}\[\^(.+)\]: # id = \1
3c160414da2e initial upload shiltemann parents: diff changeset	770 [ \t]*
3c160414da2e initial upload shiltemann parents: diff changeset	771 ( # footnote text = \2
3c160414da2e initial upload shiltemann parents: diff changeset	772 # First line need not start with the spaces.
3c160414da2e initial upload shiltemann parents: diff changeset	773 (?:\s.\n+)
3c160414da2e initial upload shiltemann parents: diff changeset	774 (?:
3c160414da2e initial upload shiltemann parents: diff changeset	775 (?:[ ]{%d} \| \t) # Subsequent lines must be indented.
3c160414da2e initial upload shiltemann parents: diff changeset	776 .*\n+
3c160414da2e initial upload shiltemann parents: diff changeset	777 )*
3c160414da2e initial upload shiltemann parents: diff changeset	778 )
3c160414da2e initial upload shiltemann parents: diff changeset	779 # Lookahead for non-space at line-start, or end of doc.
3c160414da2e initial upload shiltemann parents: diff changeset	780 (?:(?=^[ ]{0,%d}\S)\|\Z)
3c160414da2e initial upload shiltemann parents: diff changeset	781 ''' % (less_than_tab, self.tab_width, self.tab_width),
3c160414da2e initial upload shiltemann parents: diff changeset	782 re.X \| re.M)
3c160414da2e initial upload shiltemann parents: diff changeset	783 return footnote_def_re.sub(self._extract_footnote_def_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	784
3c160414da2e initial upload shiltemann parents: diff changeset	785 _hr_re = re.compile(r'^[ ]{0,3}([-_*][ ]{0,2}){3,}$', re.M)
3c160414da2e initial upload shiltemann parents: diff changeset	786
3c160414da2e initial upload shiltemann parents: diff changeset	787 def _run_block_gamut(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	788 # These are all the transformations that form block-level
3c160414da2e initial upload shiltemann parents: diff changeset	789 # tags like paragraphs, headers, and list items.
3c160414da2e initial upload shiltemann parents: diff changeset	790
3c160414da2e initial upload shiltemann parents: diff changeset	791 if "fenced-code-blocks" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	792 text = self._do_fenced_code_blocks(text)
3c160414da2e initial upload shiltemann parents: diff changeset	793
3c160414da2e initial upload shiltemann parents: diff changeset	794 text = self._do_headers(text)
3c160414da2e initial upload shiltemann parents: diff changeset	795
3c160414da2e initial upload shiltemann parents: diff changeset	796 # Do Horizontal Rules:
3c160414da2e initial upload shiltemann parents: diff changeset	797 # On the number of spaces in horizontal rules: The spec is fuzzy: "If
3c160414da2e initial upload shiltemann parents: diff changeset	798 # you wish, you may use spaces between the hyphens or asterisks."
3c160414da2e initial upload shiltemann parents: diff changeset	799 # Markdown.pl 1.0.1's hr regexes limit the number of spaces between the
3c160414da2e initial upload shiltemann parents: diff changeset	800 # hr chars to one or two. We'll reproduce that limit here.
3c160414da2e initial upload shiltemann parents: diff changeset	801 hr = "\n<hr"+self.empty_element_suffix+"\n"
3c160414da2e initial upload shiltemann parents: diff changeset	802 text = re.sub(self._hr_re, hr, text)
3c160414da2e initial upload shiltemann parents: diff changeset	803
3c160414da2e initial upload shiltemann parents: diff changeset	804 text = self._do_lists(text)
3c160414da2e initial upload shiltemann parents: diff changeset	805
3c160414da2e initial upload shiltemann parents: diff changeset	806 if "pyshell" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	807 text = self._prepare_pyshell_blocks(text)
3c160414da2e initial upload shiltemann parents: diff changeset	808 if "wiki-tables" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	809 text = self._do_wiki_tables(text)
3c160414da2e initial upload shiltemann parents: diff changeset	810 if "tables" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	811 text = self._do_tables(text)
3c160414da2e initial upload shiltemann parents: diff changeset	812
3c160414da2e initial upload shiltemann parents: diff changeset	813 text = self._do_code_blocks(text)
3c160414da2e initial upload shiltemann parents: diff changeset	814
3c160414da2e initial upload shiltemann parents: diff changeset	815 text = self._do_block_quotes(text)
3c160414da2e initial upload shiltemann parents: diff changeset	816
3c160414da2e initial upload shiltemann parents: diff changeset	817 # We already ran _HashHTMLBlocks() before, in Markdown(), but that
3c160414da2e initial upload shiltemann parents: diff changeset	818 # was to escape raw HTML in the original Markdown source. This time,
3c160414da2e initial upload shiltemann parents: diff changeset	819 # we're escaping the markup we've just created, so that we don't wrap
3c160414da2e initial upload shiltemann parents: diff changeset	820 # <p> tags around block-level tags.
3c160414da2e initial upload shiltemann parents: diff changeset	821 text = self._hash_html_blocks(text)
3c160414da2e initial upload shiltemann parents: diff changeset	822
3c160414da2e initial upload shiltemann parents: diff changeset	823 text = self._form_paragraphs(text)
3c160414da2e initial upload shiltemann parents: diff changeset	824
3c160414da2e initial upload shiltemann parents: diff changeset	825 return text
3c160414da2e initial upload shiltemann parents: diff changeset	826
3c160414da2e initial upload shiltemann parents: diff changeset	827 def _pyshell_block_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	828 lines = match.group(0).splitlines(0)
3c160414da2e initial upload shiltemann parents: diff changeset	829 _dedentlines(lines)
3c160414da2e initial upload shiltemann parents: diff changeset	830 indent = ' ' * self.tab_width
3c160414da2e initial upload shiltemann parents: diff changeset	831 s = ('\n' # separate from possible cuddled paragraph
3c160414da2e initial upload shiltemann parents: diff changeset	832 + indent + ('\n'+indent).join(lines)
3c160414da2e initial upload shiltemann parents: diff changeset	833 + '\n\n')
3c160414da2e initial upload shiltemann parents: diff changeset	834 return s
3c160414da2e initial upload shiltemann parents: diff changeset	835
3c160414da2e initial upload shiltemann parents: diff changeset	836 def _prepare_pyshell_blocks(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	837 """Ensure that Python interactive shell sessions are put in
3c160414da2e initial upload shiltemann parents: diff changeset	838 code blocks -- even if not properly indented.
3c160414da2e initial upload shiltemann parents: diff changeset	839 """
3c160414da2e initial upload shiltemann parents: diff changeset	840 if ">>>" not in text:
3c160414da2e initial upload shiltemann parents: diff changeset	841 return text
3c160414da2e initial upload shiltemann parents: diff changeset	842
3c160414da2e initial upload shiltemann parents: diff changeset	843 less_than_tab = self.tab_width - 1
3c160414da2e initial upload shiltemann parents: diff changeset	844 _pyshell_block_re = re.compile(r"""
3c160414da2e initial upload shiltemann parents: diff changeset	845 ^([ ]{0,%d})>>>[ ].*\n # first line
3c160414da2e initial upload shiltemann parents: diff changeset	846 ^(\1.\S+.\n)* # any number of subsequent lines
3c160414da2e initial upload shiltemann parents: diff changeset	847 ^\n # ends with a blank line
3c160414da2e initial upload shiltemann parents: diff changeset	848 """ % less_than_tab, re.M \| re.X)
3c160414da2e initial upload shiltemann parents: diff changeset	849
3c160414da2e initial upload shiltemann parents: diff changeset	850 return _pyshell_block_re.sub(self._pyshell_block_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	851
3c160414da2e initial upload shiltemann parents: diff changeset	852 def _table_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	853 head, underline, body = match.groups()
3c160414da2e initial upload shiltemann parents: diff changeset	854
3c160414da2e initial upload shiltemann parents: diff changeset	855 # Determine aligns for columns.
3c160414da2e initial upload shiltemann parents: diff changeset	856 cols = [cell.strip() for cell in underline.strip('\| \t\n').split('\|')]
3c160414da2e initial upload shiltemann parents: diff changeset	857 align_from_col_idx = {}
3c160414da2e initial upload shiltemann parents: diff changeset	858 for col_idx, col in enumerate(cols):
3c160414da2e initial upload shiltemann parents: diff changeset	859 if col[0] == ':' and col[-1] == ':':
3c160414da2e initial upload shiltemann parents: diff changeset	860 align_from_col_idx[col_idx] = ' align="center"'
3c160414da2e initial upload shiltemann parents: diff changeset	861 elif col[0] == ':':
3c160414da2e initial upload shiltemann parents: diff changeset	862 align_from_col_idx[col_idx] = ' align="left"'
3c160414da2e initial upload shiltemann parents: diff changeset	863 elif col[-1] == ':':
3c160414da2e initial upload shiltemann parents: diff changeset	864 align_from_col_idx[col_idx] = ' align="right"'
3c160414da2e initial upload shiltemann parents: diff changeset	865
3c160414da2e initial upload shiltemann parents: diff changeset	866 # thead
3c160414da2e initial upload shiltemann parents: diff changeset	867 hlines = ['<table>', '<thead>', '<tr>']
3c160414da2e initial upload shiltemann parents: diff changeset	868 cols = [cell.strip() for cell in head.strip('\| \t\n').split('\|')]
3c160414da2e initial upload shiltemann parents: diff changeset	869 for col_idx, col in enumerate(cols):
3c160414da2e initial upload shiltemann parents: diff changeset	870 hlines.append(' <th%s>%s</th>' % (
3c160414da2e initial upload shiltemann parents: diff changeset	871 align_from_col_idx.get(col_idx, ''),
3c160414da2e initial upload shiltemann parents: diff changeset	872 self._run_span_gamut(col)
3c160414da2e initial upload shiltemann parents: diff changeset	873 ))
3c160414da2e initial upload shiltemann parents: diff changeset	874 hlines.append('</tr>')
3c160414da2e initial upload shiltemann parents: diff changeset	875 hlines.append('</thead>')
3c160414da2e initial upload shiltemann parents: diff changeset	876
3c160414da2e initial upload shiltemann parents: diff changeset	877 # tbody
3c160414da2e initial upload shiltemann parents: diff changeset	878 hlines.append('<tbody>')
3c160414da2e initial upload shiltemann parents: diff changeset	879 for line in body.strip('\n').split('\n'):
3c160414da2e initial upload shiltemann parents: diff changeset	880 hlines.append('<tr>')
3c160414da2e initial upload shiltemann parents: diff changeset	881 cols = [cell.strip() for cell in line.strip('\| \t\n').split('\|')]
3c160414da2e initial upload shiltemann parents: diff changeset	882 for col_idx, col in enumerate(cols):
3c160414da2e initial upload shiltemann parents: diff changeset	883 hlines.append(' <td%s>%s</td>' % (
3c160414da2e initial upload shiltemann parents: diff changeset	884 align_from_col_idx.get(col_idx, ''),
3c160414da2e initial upload shiltemann parents: diff changeset	885 self._run_span_gamut(col)
3c160414da2e initial upload shiltemann parents: diff changeset	886 ))
3c160414da2e initial upload shiltemann parents: diff changeset	887 hlines.append('</tr>')
3c160414da2e initial upload shiltemann parents: diff changeset	888 hlines.append('</tbody>')
3c160414da2e initial upload shiltemann parents: diff changeset	889 hlines.append('</table>')
3c160414da2e initial upload shiltemann parents: diff changeset	890
3c160414da2e initial upload shiltemann parents: diff changeset	891 return '\n'.join(hlines) + '\n'
3c160414da2e initial upload shiltemann parents: diff changeset	892
3c160414da2e initial upload shiltemann parents: diff changeset	893 def _do_tables(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	894 """Copying PHP-Markdown and GFM table syntax. Some regex borrowed from
3c160414da2e initial upload shiltemann parents: diff changeset	895 https://github.com/michelf/php-markdown/blob/lib/Michelf/Markdown.php#L2538
3c160414da2e initial upload shiltemann parents: diff changeset	896 """
3c160414da2e initial upload shiltemann parents: diff changeset	897 less_than_tab = self.tab_width - 1
3c160414da2e initial upload shiltemann parents: diff changeset	898 table_re = re.compile(r'''
3c160414da2e initial upload shiltemann parents: diff changeset	899 (?:(?<=\n\n)\|\A\n?) # leading blank line
3c160414da2e initial upload shiltemann parents: diff changeset	900
3c160414da2e initial upload shiltemann parents: diff changeset	901 ^[ ]{0,%d} # allowed whitespace
3c160414da2e initial upload shiltemann parents: diff changeset	902 (.[\|].) \n # $1: header row (at least one pipe)
3c160414da2e initial upload shiltemann parents: diff changeset	903
3c160414da2e initial upload shiltemann parents: diff changeset	904 ^[ ]{0,%d} # allowed whitespace
3c160414da2e initial upload shiltemann parents: diff changeset	905 ( # $2: underline row
3c160414da2e initial upload shiltemann parents: diff changeset	906 # underline row with leading bar
3c160414da2e initial upload shiltemann parents: diff changeset	907 (?: \\|\ :?-+:?\ )+ \\|? \n
3c160414da2e initial upload shiltemann parents: diff changeset	908 \|
3c160414da2e initial upload shiltemann parents: diff changeset	909 # or, underline row without leading bar
3c160414da2e initial upload shiltemann parents: diff changeset	910 (?: \ :?-+:?\ \\| )+ (?: \ :?-+:?\ )? \n
3c160414da2e initial upload shiltemann parents: diff changeset	911 )
3c160414da2e initial upload shiltemann parents: diff changeset	912
3c160414da2e initial upload shiltemann parents: diff changeset	913 ( # $3: data rows
3c160414da2e initial upload shiltemann parents: diff changeset	914 (?:
3c160414da2e initial upload shiltemann parents: diff changeset	915 ^[ ]{0,%d}(?!\ ) # ensure line begins with 0 to less_than_tab spaces
3c160414da2e initial upload shiltemann parents: diff changeset	916 .\\|. \n
3c160414da2e initial upload shiltemann parents: diff changeset	917 )+
3c160414da2e initial upload shiltemann parents: diff changeset	918 )
3c160414da2e initial upload shiltemann parents: diff changeset	919 ''' % (less_than_tab, less_than_tab, less_than_tab), re.M \| re.X)
3c160414da2e initial upload shiltemann parents: diff changeset	920 return table_re.sub(self._table_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	921
3c160414da2e initial upload shiltemann parents: diff changeset	922 def _wiki_table_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	923 ttext = match.group(0).strip()
3c160414da2e initial upload shiltemann parents: diff changeset	924 #print 'wiki table: %r' % match.group(0)
3c160414da2e initial upload shiltemann parents: diff changeset	925 rows = []
3c160414da2e initial upload shiltemann parents: diff changeset	926 for line in ttext.splitlines(0):
3c160414da2e initial upload shiltemann parents: diff changeset	927 line = line.strip()[2:-2].strip()
3c160414da2e initial upload shiltemann parents: diff changeset	928 row = [c.strip() for c in re.split(r'(?<!\\)\\|\\|', line)]
3c160414da2e initial upload shiltemann parents: diff changeset	929 rows.append(row)
3c160414da2e initial upload shiltemann parents: diff changeset	930 #pprint(rows)
3c160414da2e initial upload shiltemann parents: diff changeset	931 hlines = ['<table>', '<tbody>']
3c160414da2e initial upload shiltemann parents: diff changeset	932 for row in rows:
3c160414da2e initial upload shiltemann parents: diff changeset	933 hrow = ['<tr>']
3c160414da2e initial upload shiltemann parents: diff changeset	934 for cell in row:
3c160414da2e initial upload shiltemann parents: diff changeset	935 hrow.append('<td>')
3c160414da2e initial upload shiltemann parents: diff changeset	936 hrow.append(self._run_span_gamut(cell))
3c160414da2e initial upload shiltemann parents: diff changeset	937 hrow.append('</td>')
3c160414da2e initial upload shiltemann parents: diff changeset	938 hrow.append('</tr>')
3c160414da2e initial upload shiltemann parents: diff changeset	939 hlines.append(''.join(hrow))
3c160414da2e initial upload shiltemann parents: diff changeset	940 hlines += ['</tbody>', '</table>']
3c160414da2e initial upload shiltemann parents: diff changeset	941 return '\n'.join(hlines) + '\n'
3c160414da2e initial upload shiltemann parents: diff changeset	942
3c160414da2e initial upload shiltemann parents: diff changeset	943 def _do_wiki_tables(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	944 # Optimization.
3c160414da2e initial upload shiltemann parents: diff changeset	945 if "\|\|" not in text:
3c160414da2e initial upload shiltemann parents: diff changeset	946 return text
3c160414da2e initial upload shiltemann parents: diff changeset	947
3c160414da2e initial upload shiltemann parents: diff changeset	948 less_than_tab = self.tab_width - 1
3c160414da2e initial upload shiltemann parents: diff changeset	949 wiki_table_re = re.compile(r'''
3c160414da2e initial upload shiltemann parents: diff changeset	950 (?:(?<=\n\n)\|\A\n?) # leading blank line
3c160414da2e initial upload shiltemann parents: diff changeset	951 ^([ ]{0,%d})\\|\\|.+?\\|\\|[ ]*\n # first line
3c160414da2e initial upload shiltemann parents: diff changeset	952 (^\1\\|\\|.+?\\|\\|\n)* # any number of subsequent lines
3c160414da2e initial upload shiltemann parents: diff changeset	953 ''' % less_than_tab, re.M \| re.X)
3c160414da2e initial upload shiltemann parents: diff changeset	954 return wiki_table_re.sub(self._wiki_table_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	955
3c160414da2e initial upload shiltemann parents: diff changeset	956 def _run_span_gamut(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	957 # These are all the transformations that occur within block-level
3c160414da2e initial upload shiltemann parents: diff changeset	958 # tags like paragraphs, headers, and list items.
3c160414da2e initial upload shiltemann parents: diff changeset	959
3c160414da2e initial upload shiltemann parents: diff changeset	960 text = self._do_code_spans(text)
3c160414da2e initial upload shiltemann parents: diff changeset	961
3c160414da2e initial upload shiltemann parents: diff changeset	962 text = self._escape_special_chars(text)
3c160414da2e initial upload shiltemann parents: diff changeset	963
3c160414da2e initial upload shiltemann parents: diff changeset	964 # Process anchor and image tags.
3c160414da2e initial upload shiltemann parents: diff changeset	965 text = self._do_links(text)
3c160414da2e initial upload shiltemann parents: diff changeset	966
3c160414da2e initial upload shiltemann parents: diff changeset	967 # Make links out of things like `<http://example.com/>`
3c160414da2e initial upload shiltemann parents: diff changeset	968 # Must come after _do_links(), because you can use < and >
3c160414da2e initial upload shiltemann parents: diff changeset	969 # delimiters in inline links like [this](<url>).
3c160414da2e initial upload shiltemann parents: diff changeset	970 text = self._do_auto_links(text)
3c160414da2e initial upload shiltemann parents: diff changeset	971
3c160414da2e initial upload shiltemann parents: diff changeset	972 if "link-patterns" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	973 text = self._do_link_patterns(text)
3c160414da2e initial upload shiltemann parents: diff changeset	974
3c160414da2e initial upload shiltemann parents: diff changeset	975 text = self._encode_amps_and_angles(text)
3c160414da2e initial upload shiltemann parents: diff changeset	976
3c160414da2e initial upload shiltemann parents: diff changeset	977 text = self._do_italics_and_bold(text)
3c160414da2e initial upload shiltemann parents: diff changeset	978
3c160414da2e initial upload shiltemann parents: diff changeset	979 if "smarty-pants" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	980 text = self._do_smart_punctuation(text)
3c160414da2e initial upload shiltemann parents: diff changeset	981
3c160414da2e initial upload shiltemann parents: diff changeset	982 # Do hard breaks:
3c160414da2e initial upload shiltemann parents: diff changeset	983 if "break-on-newline" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	984 text = re.sub(r" *\n", "<br%s\n" % self.empty_element_suffix, text)
3c160414da2e initial upload shiltemann parents: diff changeset	985 else:
3c160414da2e initial upload shiltemann parents: diff changeset	986 text = re.sub(r" {2,}\n", " <br%s\n" % self.empty_element_suffix, text)
3c160414da2e initial upload shiltemann parents: diff changeset	987
3c160414da2e initial upload shiltemann parents: diff changeset	988 return text
3c160414da2e initial upload shiltemann parents: diff changeset	989
3c160414da2e initial upload shiltemann parents: diff changeset	990 # "Sorta" because auto-links are identified as "tag" tokens.
3c160414da2e initial upload shiltemann parents: diff changeset	991 _sorta_html_tokenize_re = re.compile(r"""
3c160414da2e initial upload shiltemann parents: diff changeset	992 (
3c160414da2e initial upload shiltemann parents: diff changeset	993 # tag
3c160414da2e initial upload shiltemann parents: diff changeset	994 </?
3c160414da2e initial upload shiltemann parents: diff changeset	995 (?:\w+) # tag name
3c160414da2e initial upload shiltemann parents: diff changeset	996 (?:\s+(?:[\w-]+:)?[\w-]+=(?:".?"\|'.?'))* # attributes
3c160414da2e initial upload shiltemann parents: diff changeset	997 \s*/?>
3c160414da2e initial upload shiltemann parents: diff changeset	998 \|
3c160414da2e initial upload shiltemann parents: diff changeset	999 # auto-link (e.g., <http://www.activestate.com/>)
3c160414da2e initial upload shiltemann parents: diff changeset	1000 <\w+[^>]*>
3c160414da2e initial upload shiltemann parents: diff changeset	1001 \|
3c160414da2e initial upload shiltemann parents: diff changeset	1002 <!--.*?--> # comment
3c160414da2e initial upload shiltemann parents: diff changeset	1003 \|
3c160414da2e initial upload shiltemann parents: diff changeset	1004 <\?.*?\?> # processing instruction
3c160414da2e initial upload shiltemann parents: diff changeset	1005 )
3c160414da2e initial upload shiltemann parents: diff changeset	1006 """, re.X)
3c160414da2e initial upload shiltemann parents: diff changeset	1007
3c160414da2e initial upload shiltemann parents: diff changeset	1008 def _escape_special_chars(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1009 # Python markdown note: the HTML tokenization here differs from
3c160414da2e initial upload shiltemann parents: diff changeset	1010 # that in Markdown.pl, hence the behaviour for subtle cases can
3c160414da2e initial upload shiltemann parents: diff changeset	1011 # differ (I believe the tokenizer here does a better job because
3c160414da2e initial upload shiltemann parents: diff changeset	1012 # it isn't susceptible to unmatched '<' and '>' in HTML tags).
3c160414da2e initial upload shiltemann parents: diff changeset	1013 # Note, however, that '>' is not allowed in an auto-link URL
3c160414da2e initial upload shiltemann parents: diff changeset	1014 # here.
3c160414da2e initial upload shiltemann parents: diff changeset	1015 escaped = []
3c160414da2e initial upload shiltemann parents: diff changeset	1016 is_html_markup = False
3c160414da2e initial upload shiltemann parents: diff changeset	1017 for token in self._sorta_html_tokenize_re.split(text):
3c160414da2e initial upload shiltemann parents: diff changeset	1018 if is_html_markup:
3c160414da2e initial upload shiltemann parents: diff changeset	1019 # Within tags/HTML-comments/auto-links, encode * and _
3c160414da2e initial upload shiltemann parents: diff changeset	1020 # so they don't conflict with their use in Markdown for
3c160414da2e initial upload shiltemann parents: diff changeset	1021 # italics and strong. We're replacing each such
3c160414da2e initial upload shiltemann parents: diff changeset	1022 # character with its corresponding MD5 checksum value;
3c160414da2e initial upload shiltemann parents: diff changeset	1023 # this is likely overkill, but it should prevent us from
3c160414da2e initial upload shiltemann parents: diff changeset	1024 # colliding with the escape values by accident.
3c160414da2e initial upload shiltemann parents: diff changeset	1025 escaped.append(token.replace('', self._escape_table[''])
3c160414da2e initial upload shiltemann parents: diff changeset	1026 .replace('_', self._escape_table['_']))
3c160414da2e initial upload shiltemann parents: diff changeset	1027 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1028 escaped.append(self._encode_backslash_escapes(token))
3c160414da2e initial upload shiltemann parents: diff changeset	1029 is_html_markup = not is_html_markup
3c160414da2e initial upload shiltemann parents: diff changeset	1030 return ''.join(escaped)
3c160414da2e initial upload shiltemann parents: diff changeset	1031
3c160414da2e initial upload shiltemann parents: diff changeset	1032 def _hash_html_spans(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1033 # Used for safe_mode.
3c160414da2e initial upload shiltemann parents: diff changeset	1034
3c160414da2e initial upload shiltemann parents: diff changeset	1035 def _is_auto_link(s):
3c160414da2e initial upload shiltemann parents: diff changeset	1036 if ':' in s and self._auto_link_re.match(s):
3c160414da2e initial upload shiltemann parents: diff changeset	1037 return True
3c160414da2e initial upload shiltemann parents: diff changeset	1038 elif '@' in s and self._auto_email_link_re.match(s):
3c160414da2e initial upload shiltemann parents: diff changeset	1039 return True
3c160414da2e initial upload shiltemann parents: diff changeset	1040 return False
3c160414da2e initial upload shiltemann parents: diff changeset	1041
3c160414da2e initial upload shiltemann parents: diff changeset	1042 tokens = []
3c160414da2e initial upload shiltemann parents: diff changeset	1043 is_html_markup = False
3c160414da2e initial upload shiltemann parents: diff changeset	1044 for token in self._sorta_html_tokenize_re.split(text):
3c160414da2e initial upload shiltemann parents: diff changeset	1045 if is_html_markup and not _is_auto_link(token):
3c160414da2e initial upload shiltemann parents: diff changeset	1046 sanitized = self._sanitize_html(token)
3c160414da2e initial upload shiltemann parents: diff changeset	1047 key = _hash_text(sanitized)
3c160414da2e initial upload shiltemann parents: diff changeset	1048 self.html_spans[key] = sanitized
3c160414da2e initial upload shiltemann parents: diff changeset	1049 tokens.append(key)
3c160414da2e initial upload shiltemann parents: diff changeset	1050 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1051 tokens.append(token)
3c160414da2e initial upload shiltemann parents: diff changeset	1052 is_html_markup = not is_html_markup
3c160414da2e initial upload shiltemann parents: diff changeset	1053 return ''.join(tokens)
3c160414da2e initial upload shiltemann parents: diff changeset	1054
3c160414da2e initial upload shiltemann parents: diff changeset	1055 def _unhash_html_spans(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1056 for key, sanitized in list(self.html_spans.items()):
3c160414da2e initial upload shiltemann parents: diff changeset	1057 text = text.replace(key, sanitized)
3c160414da2e initial upload shiltemann parents: diff changeset	1058 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1059
3c160414da2e initial upload shiltemann parents: diff changeset	1060 def _sanitize_html(self, s):
3c160414da2e initial upload shiltemann parents: diff changeset	1061 if self.safe_mode == "replace":
3c160414da2e initial upload shiltemann parents: diff changeset	1062 return self.html_removed_text
3c160414da2e initial upload shiltemann parents: diff changeset	1063 elif self.safe_mode == "escape":
3c160414da2e initial upload shiltemann parents: diff changeset	1064 replacements = [
3c160414da2e initial upload shiltemann parents: diff changeset	1065 ('&', '&'),
3c160414da2e initial upload shiltemann parents: diff changeset	1066 ('<', '<'),
3c160414da2e initial upload shiltemann parents: diff changeset	1067 ('>', '>'),
3c160414da2e initial upload shiltemann parents: diff changeset	1068 ]
3c160414da2e initial upload shiltemann parents: diff changeset	1069 for before, after in replacements:
3c160414da2e initial upload shiltemann parents: diff changeset	1070 s = s.replace(before, after)
3c160414da2e initial upload shiltemann parents: diff changeset	1071 return s
3c160414da2e initial upload shiltemann parents: diff changeset	1072 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1073 raise MarkdownError("invalid value for 'safe_mode': %r (must be "
3c160414da2e initial upload shiltemann parents: diff changeset	1074 "'escape' or 'replace')" % self.safe_mode)
3c160414da2e initial upload shiltemann parents: diff changeset	1075
3c160414da2e initial upload shiltemann parents: diff changeset	1076 _inline_link_title = re.compile(r'''
3c160414da2e initial upload shiltemann parents: diff changeset	1077 ( # \1
3c160414da2e initial upload shiltemann parents: diff changeset	1078 [ \t]+
3c160414da2e initial upload shiltemann parents: diff changeset	1079 (['"]) # quote char = \2
3c160414da2e initial upload shiltemann parents: diff changeset	1080 (?P<title>.*?)
3c160414da2e initial upload shiltemann parents: diff changeset	1081 \2
3c160414da2e initial upload shiltemann parents: diff changeset	1082 )? # title is optional
3c160414da2e initial upload shiltemann parents: diff changeset	1083 \)$
3c160414da2e initial upload shiltemann parents: diff changeset	1084 ''', re.X \| re.S)
3c160414da2e initial upload shiltemann parents: diff changeset	1085 _tail_of_reference_link_re = re.compile(r'''
3c160414da2e initial upload shiltemann parents: diff changeset	1086 # Match tail of: [text][id]
3c160414da2e initial upload shiltemann parents: diff changeset	1087 [ ]? # one optional space
3c160414da2e initial upload shiltemann parents: diff changeset	1088 (?:\n[ ]*)? # one optional newline followed by spaces
3c160414da2e initial upload shiltemann parents: diff changeset	1089 \[
3c160414da2e initial upload shiltemann parents: diff changeset	1090 (?P<id>.*?)
3c160414da2e initial upload shiltemann parents: diff changeset	1091 \]
3c160414da2e initial upload shiltemann parents: diff changeset	1092 ''', re.X \| re.S)
3c160414da2e initial upload shiltemann parents: diff changeset	1093
3c160414da2e initial upload shiltemann parents: diff changeset	1094 _whitespace = re.compile(r'\s*')
3c160414da2e initial upload shiltemann parents: diff changeset	1095
3c160414da2e initial upload shiltemann parents: diff changeset	1096 _strip_anglebrackets = re.compile(r'<(.)>.')
3c160414da2e initial upload shiltemann parents: diff changeset	1097
3c160414da2e initial upload shiltemann parents: diff changeset	1098 def _find_non_whitespace(self, text, start):
3c160414da2e initial upload shiltemann parents: diff changeset	1099 """Returns the index of the first non-whitespace character in text
3c160414da2e initial upload shiltemann parents: diff changeset	1100 after (and including) start
3c160414da2e initial upload shiltemann parents: diff changeset	1101 """
3c160414da2e initial upload shiltemann parents: diff changeset	1102 match = self._whitespace.match(text, start)
3c160414da2e initial upload shiltemann parents: diff changeset	1103 return match.end()
3c160414da2e initial upload shiltemann parents: diff changeset	1104
3c160414da2e initial upload shiltemann parents: diff changeset	1105 def _find_balanced(self, text, start, open_c, close_c):
3c160414da2e initial upload shiltemann parents: diff changeset	1106 """Returns the index where the open_c and close_c characters balance
3c160414da2e initial upload shiltemann parents: diff changeset	1107 out - the same number of open_c and close_c are encountered - or the
3c160414da2e initial upload shiltemann parents: diff changeset	1108 end of string if it's reached before the balance point is found.
3c160414da2e initial upload shiltemann parents: diff changeset	1109 """
3c160414da2e initial upload shiltemann parents: diff changeset	1110 i = start
3c160414da2e initial upload shiltemann parents: diff changeset	1111 l = len(text)
3c160414da2e initial upload shiltemann parents: diff changeset	1112 count = 1
3c160414da2e initial upload shiltemann parents: diff changeset	1113 while count > 0 and i < l:
3c160414da2e initial upload shiltemann parents: diff changeset	1114 if text[i] == open_c:
3c160414da2e initial upload shiltemann parents: diff changeset	1115 count += 1
3c160414da2e initial upload shiltemann parents: diff changeset	1116 elif text[i] == close_c:
3c160414da2e initial upload shiltemann parents: diff changeset	1117 count -= 1
3c160414da2e initial upload shiltemann parents: diff changeset	1118 i += 1
3c160414da2e initial upload shiltemann parents: diff changeset	1119 return i
3c160414da2e initial upload shiltemann parents: diff changeset	1120
3c160414da2e initial upload shiltemann parents: diff changeset	1121 def _extract_url_and_title(self, text, start):
3c160414da2e initial upload shiltemann parents: diff changeset	1122 """Extracts the url and (optional) title from the tail of a link"""
3c160414da2e initial upload shiltemann parents: diff changeset	1123 # text[start] equals the opening parenthesis
3c160414da2e initial upload shiltemann parents: diff changeset	1124 idx = self._find_non_whitespace(text, start+1)
3c160414da2e initial upload shiltemann parents: diff changeset	1125 if idx == len(text):
3c160414da2e initial upload shiltemann parents: diff changeset	1126 return None, None, None
3c160414da2e initial upload shiltemann parents: diff changeset	1127 end_idx = idx
3c160414da2e initial upload shiltemann parents: diff changeset	1128 has_anglebrackets = text[idx] == "<"
3c160414da2e initial upload shiltemann parents: diff changeset	1129 if has_anglebrackets:
3c160414da2e initial upload shiltemann parents: diff changeset	1130 end_idx = self._find_balanced(text, end_idx+1, "<", ">")
3c160414da2e initial upload shiltemann parents: diff changeset	1131 end_idx = self._find_balanced(text, end_idx, "(", ")")
3c160414da2e initial upload shiltemann parents: diff changeset	1132 match = self._inline_link_title.search(text, idx, end_idx)
3c160414da2e initial upload shiltemann parents: diff changeset	1133 if not match:
3c160414da2e initial upload shiltemann parents: diff changeset	1134 return None, None, None
3c160414da2e initial upload shiltemann parents: diff changeset	1135 url, title = text[idx:match.start()], match.group("title")
3c160414da2e initial upload shiltemann parents: diff changeset	1136 if has_anglebrackets:
3c160414da2e initial upload shiltemann parents: diff changeset	1137 url = self._strip_anglebrackets.sub(r'\1', url)
3c160414da2e initial upload shiltemann parents: diff changeset	1138 return url, title, end_idx
3c160414da2e initial upload shiltemann parents: diff changeset	1139
3c160414da2e initial upload shiltemann parents: diff changeset	1140 def _do_links(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1141 """Turn Markdown link shortcuts into XHTML <a> and <img> tags.
3c160414da2e initial upload shiltemann parents: diff changeset	1142
3c160414da2e initial upload shiltemann parents: diff changeset	1143 This is a combination of Markdown.pl's _DoAnchors() and
3c160414da2e initial upload shiltemann parents: diff changeset	1144 _DoImages(). They are done together because that simplified the
3c160414da2e initial upload shiltemann parents: diff changeset	1145 approach. It was necessary to use a different approach than
3c160414da2e initial upload shiltemann parents: diff changeset	1146 Markdown.pl because of the lack of atomic matching support in
3c160414da2e initial upload shiltemann parents: diff changeset	1147 Python's regex engine used in $g_nested_brackets.
3c160414da2e initial upload shiltemann parents: diff changeset	1148 """
3c160414da2e initial upload shiltemann parents: diff changeset	1149 MAX_LINK_TEXT_SENTINEL = 3000 # markdown2 issue 24
3c160414da2e initial upload shiltemann parents: diff changeset	1150
3c160414da2e initial upload shiltemann parents: diff changeset	1151 # `anchor_allowed_pos` is used to support img links inside
3c160414da2e initial upload shiltemann parents: diff changeset	1152 # anchors, but not anchors inside anchors. An anchor's start
3c160414da2e initial upload shiltemann parents: diff changeset	1153 # pos must be `>= anchor_allowed_pos`.
3c160414da2e initial upload shiltemann parents: diff changeset	1154 anchor_allowed_pos = 0
3c160414da2e initial upload shiltemann parents: diff changeset	1155
3c160414da2e initial upload shiltemann parents: diff changeset	1156 curr_pos = 0
3c160414da2e initial upload shiltemann parents: diff changeset	1157 while True: # Handle the next link.
3c160414da2e initial upload shiltemann parents: diff changeset	1158 # The next '[' is the start of:
3c160414da2e initial upload shiltemann parents: diff changeset	1159 # - an inline anchor: [text](url "title")
3c160414da2e initial upload shiltemann parents: diff changeset	1160 # - a reference anchor: [text][id]
3c160414da2e initial upload shiltemann parents: diff changeset	1161 # - an inline img: ![text](url "title")
3c160414da2e initial upload shiltemann parents: diff changeset	1162 # - a reference img: ![text][id]
3c160414da2e initial upload shiltemann parents: diff changeset	1163 # - a footnote ref: [^id]
3c160414da2e initial upload shiltemann parents: diff changeset	1164 # (Only if 'footnotes' extra enabled)
3c160414da2e initial upload shiltemann parents: diff changeset	1165 # - a footnote defn: [^id]: ...
3c160414da2e initial upload shiltemann parents: diff changeset	1166 # (Only if 'footnotes' extra enabled) These have already
3c160414da2e initial upload shiltemann parents: diff changeset	1167 # been stripped in _strip_footnote_definitions() so no
3c160414da2e initial upload shiltemann parents: diff changeset	1168 # need to watch for them.
3c160414da2e initial upload shiltemann parents: diff changeset	1169 # - a link definition: [id]: url "title"
3c160414da2e initial upload shiltemann parents: diff changeset	1170 # These have already been stripped in
3c160414da2e initial upload shiltemann parents: diff changeset	1171 # _strip_link_definitions() so no need to watch for them.
3c160414da2e initial upload shiltemann parents: diff changeset	1172 # - not markup: [...anything else...
3c160414da2e initial upload shiltemann parents: diff changeset	1173 try:
3c160414da2e initial upload shiltemann parents: diff changeset	1174 start_idx = text.index('[', curr_pos)
3c160414da2e initial upload shiltemann parents: diff changeset	1175 except ValueError:
3c160414da2e initial upload shiltemann parents: diff changeset	1176 break
3c160414da2e initial upload shiltemann parents: diff changeset	1177 text_length = len(text)
3c160414da2e initial upload shiltemann parents: diff changeset	1178
3c160414da2e initial upload shiltemann parents: diff changeset	1179 # Find the matching closing ']'.
3c160414da2e initial upload shiltemann parents: diff changeset	1180 # Markdown.pl allows matching brackets in link text so we
3c160414da2e initial upload shiltemann parents: diff changeset	1181 # will here too. Markdown.pl doesn't currently allow
3c160414da2e initial upload shiltemann parents: diff changeset	1182 # matching brackets in img alt text -- we'll differ in that
3c160414da2e initial upload shiltemann parents: diff changeset	1183 # regard.
3c160414da2e initial upload shiltemann parents: diff changeset	1184 bracket_depth = 0
3c160414da2e initial upload shiltemann parents: diff changeset	1185 for p in range(start_idx+1, min(start_idx+MAX_LINK_TEXT_SENTINEL,
3c160414da2e initial upload shiltemann parents: diff changeset	1186 text_length)):
3c160414da2e initial upload shiltemann parents: diff changeset	1187 ch = text[p]
3c160414da2e initial upload shiltemann parents: diff changeset	1188 if ch == ']':
3c160414da2e initial upload shiltemann parents: diff changeset	1189 bracket_depth -= 1
3c160414da2e initial upload shiltemann parents: diff changeset	1190 if bracket_depth < 0:
3c160414da2e initial upload shiltemann parents: diff changeset	1191 break
3c160414da2e initial upload shiltemann parents: diff changeset	1192 elif ch == '[':
3c160414da2e initial upload shiltemann parents: diff changeset	1193 bracket_depth += 1
3c160414da2e initial upload shiltemann parents: diff changeset	1194 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1195 # Closing bracket not found within sentinel length.
3c160414da2e initial upload shiltemann parents: diff changeset	1196 # This isn't markup.
3c160414da2e initial upload shiltemann parents: diff changeset	1197 curr_pos = start_idx + 1
3c160414da2e initial upload shiltemann parents: diff changeset	1198 continue
3c160414da2e initial upload shiltemann parents: diff changeset	1199 link_text = text[start_idx+1:p]
3c160414da2e initial upload shiltemann parents: diff changeset	1200
3c160414da2e initial upload shiltemann parents: diff changeset	1201 # Possibly a footnote ref?
3c160414da2e initial upload shiltemann parents: diff changeset	1202 if "footnotes" in self.extras and link_text.startswith("^"):
3c160414da2e initial upload shiltemann parents: diff changeset	1203 normed_id = re.sub(r'\W', '-', link_text[1:])
3c160414da2e initial upload shiltemann parents: diff changeset	1204 if normed_id in self.footnotes:
3c160414da2e initial upload shiltemann parents: diff changeset	1205 self.footnote_ids.append(normed_id)
3c160414da2e initial upload shiltemann parents: diff changeset	1206 result = '<sup class="footnote-ref" id="fnref-%s">' \
3c160414da2e initial upload shiltemann parents: diff changeset	1207 '<a href="#fn-%s">%s</a></sup>' \
3c160414da2e initial upload shiltemann parents: diff changeset	1208 % (normed_id, normed_id, len(self.footnote_ids))
3c160414da2e initial upload shiltemann parents: diff changeset	1209 text = text[:start_idx] + result + text[p+1:]
3c160414da2e initial upload shiltemann parents: diff changeset	1210 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1211 # This id isn't defined, leave the markup alone.
3c160414da2e initial upload shiltemann parents: diff changeset	1212 curr_pos = p+1
3c160414da2e initial upload shiltemann parents: diff changeset	1213 continue
3c160414da2e initial upload shiltemann parents: diff changeset	1214
3c160414da2e initial upload shiltemann parents: diff changeset	1215 # Now determine what this is by the remainder.
3c160414da2e initial upload shiltemann parents: diff changeset	1216 p += 1
3c160414da2e initial upload shiltemann parents: diff changeset	1217 if p == text_length:
3c160414da2e initial upload shiltemann parents: diff changeset	1218 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1219
3c160414da2e initial upload shiltemann parents: diff changeset	1220 # Inline anchor or img?
3c160414da2e initial upload shiltemann parents: diff changeset	1221 if text[p] == '(': # attempt at perf improvement
3c160414da2e initial upload shiltemann parents: diff changeset	1222 url, title, url_end_idx = self._extract_url_and_title(text, p)
3c160414da2e initial upload shiltemann parents: diff changeset	1223 if url is not None:
3c160414da2e initial upload shiltemann parents: diff changeset	1224 # Handle an inline anchor or img.
3c160414da2e initial upload shiltemann parents: diff changeset	1225 is_img = start_idx > 0 and text[start_idx-1] == "!"
3c160414da2e initial upload shiltemann parents: diff changeset	1226 if is_img:
3c160414da2e initial upload shiltemann parents: diff changeset	1227 start_idx -= 1
3c160414da2e initial upload shiltemann parents: diff changeset	1228
3c160414da2e initial upload shiltemann parents: diff changeset	1229 # We've got to encode these to avoid conflicting
3c160414da2e initial upload shiltemann parents: diff changeset	1230 # with italics/bold.
3c160414da2e initial upload shiltemann parents: diff changeset	1231 url = url.replace('', self._escape_table['']) \
3c160414da2e initial upload shiltemann parents: diff changeset	1232 .replace('_', self._escape_table['_'])
3c160414da2e initial upload shiltemann parents: diff changeset	1233 if title:
3c160414da2e initial upload shiltemann parents: diff changeset	1234 title_str = ' title="%s"' % (
3c160414da2e initial upload shiltemann parents: diff changeset	1235 _xml_escape_attr(title)
3c160414da2e initial upload shiltemann parents: diff changeset	1236 .replace('', self._escape_table[''])
3c160414da2e initial upload shiltemann parents: diff changeset	1237 .replace('_', self._escape_table['_']))
3c160414da2e initial upload shiltemann parents: diff changeset	1238 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1239 title_str = ''
3c160414da2e initial upload shiltemann parents: diff changeset	1240 if is_img:
3c160414da2e initial upload shiltemann parents: diff changeset	1241 img_class_str = self._html_class_str_from_tag("img")
3c160414da2e initial upload shiltemann parents: diff changeset	1242 result = '<img src="%s" alt="%s"%s%s%s' \
3c160414da2e initial upload shiltemann parents: diff changeset	1243 % (url.replace('"', '"'),
3c160414da2e initial upload shiltemann parents: diff changeset	1244 _xml_escape_attr(link_text),
3c160414da2e initial upload shiltemann parents: diff changeset	1245 title_str, img_class_str, self.empty_element_suffix)
3c160414da2e initial upload shiltemann parents: diff changeset	1246 if "smarty-pants" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	1247 result = result.replace('"', self._escape_table['"'])
3c160414da2e initial upload shiltemann parents: diff changeset	1248 curr_pos = start_idx + len(result)
3c160414da2e initial upload shiltemann parents: diff changeset	1249 text = text[:start_idx] + result + text[url_end_idx:]
3c160414da2e initial upload shiltemann parents: diff changeset	1250 elif start_idx >= anchor_allowed_pos:
3c160414da2e initial upload shiltemann parents: diff changeset	1251 result_head = '<a href="%s"%s>' % (url, title_str)
3c160414da2e initial upload shiltemann parents: diff changeset	1252 result = '%s%s</a>' % (result_head, link_text)
3c160414da2e initial upload shiltemann parents: diff changeset	1253 if "smarty-pants" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	1254 result = result.replace('"', self._escape_table['"'])
3c160414da2e initial upload shiltemann parents: diff changeset	1255 # <img> allowed from curr_pos on, <a> from
3c160414da2e initial upload shiltemann parents: diff changeset	1256 # anchor_allowed_pos on.
3c160414da2e initial upload shiltemann parents: diff changeset	1257 curr_pos = start_idx + len(result_head)
3c160414da2e initial upload shiltemann parents: diff changeset	1258 anchor_allowed_pos = start_idx + len(result)
3c160414da2e initial upload shiltemann parents: diff changeset	1259 text = text[:start_idx] + result + text[url_end_idx:]
3c160414da2e initial upload shiltemann parents: diff changeset	1260 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1261 # Anchor not allowed here.
3c160414da2e initial upload shiltemann parents: diff changeset	1262 curr_pos = start_idx + 1
3c160414da2e initial upload shiltemann parents: diff changeset	1263 continue
3c160414da2e initial upload shiltemann parents: diff changeset	1264
3c160414da2e initial upload shiltemann parents: diff changeset	1265 # Reference anchor or img?
3c160414da2e initial upload shiltemann parents: diff changeset	1266 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1267 match = self._tail_of_reference_link_re.match(text, p)
3c160414da2e initial upload shiltemann parents: diff changeset	1268 if match:
3c160414da2e initial upload shiltemann parents: diff changeset	1269 # Handle a reference-style anchor or img.
3c160414da2e initial upload shiltemann parents: diff changeset	1270 is_img = start_idx > 0 and text[start_idx-1] == "!"
3c160414da2e initial upload shiltemann parents: diff changeset	1271 if is_img:
3c160414da2e initial upload shiltemann parents: diff changeset	1272 start_idx -= 1
3c160414da2e initial upload shiltemann parents: diff changeset	1273 link_id = match.group("id").lower()
3c160414da2e initial upload shiltemann parents: diff changeset	1274 if not link_id:
3c160414da2e initial upload shiltemann parents: diff changeset	1275 link_id = link_text.lower() # for links like [this][]
3c160414da2e initial upload shiltemann parents: diff changeset	1276 if link_id in self.urls:
3c160414da2e initial upload shiltemann parents: diff changeset	1277 url = self.urls[link_id]
3c160414da2e initial upload shiltemann parents: diff changeset	1278 # We've got to encode these to avoid conflicting
3c160414da2e initial upload shiltemann parents: diff changeset	1279 # with italics/bold.
3c160414da2e initial upload shiltemann parents: diff changeset	1280 url = url.replace('', self._escape_table['']) \
3c160414da2e initial upload shiltemann parents: diff changeset	1281 .replace('_', self._escape_table['_'])
3c160414da2e initial upload shiltemann parents: diff changeset	1282 title = self.titles.get(link_id)
3c160414da2e initial upload shiltemann parents: diff changeset	1283 if title:
3c160414da2e initial upload shiltemann parents: diff changeset	1284 before = title
3c160414da2e initial upload shiltemann parents: diff changeset	1285 title = _xml_escape_attr(title) \
3c160414da2e initial upload shiltemann parents: diff changeset	1286 .replace('', self._escape_table['']) \
3c160414da2e initial upload shiltemann parents: diff changeset	1287 .replace('_', self._escape_table['_'])
3c160414da2e initial upload shiltemann parents: diff changeset	1288 title_str = ' title="%s"' % title
3c160414da2e initial upload shiltemann parents: diff changeset	1289 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1290 title_str = ''
3c160414da2e initial upload shiltemann parents: diff changeset	1291 if is_img:
3c160414da2e initial upload shiltemann parents: diff changeset	1292 img_class_str = self._html_class_str_from_tag("img")
3c160414da2e initial upload shiltemann parents: diff changeset	1293 result = '<img src="%s" alt="%s"%s%s%s' \
3c160414da2e initial upload shiltemann parents: diff changeset	1294 % (url.replace('"', '"'),
3c160414da2e initial upload shiltemann parents: diff changeset	1295 link_text.replace('"', '"'),
3c160414da2e initial upload shiltemann parents: diff changeset	1296 title_str, img_class_str, self.empty_element_suffix)
3c160414da2e initial upload shiltemann parents: diff changeset	1297 if "smarty-pants" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	1298 result = result.replace('"', self._escape_table['"'])
3c160414da2e initial upload shiltemann parents: diff changeset	1299 curr_pos = start_idx + len(result)
3c160414da2e initial upload shiltemann parents: diff changeset	1300 text = text[:start_idx] + result + text[match.end():]
3c160414da2e initial upload shiltemann parents: diff changeset	1301 elif start_idx >= anchor_allowed_pos:
3c160414da2e initial upload shiltemann parents: diff changeset	1302 result = '<a href="%s"%s>%s</a>' \
3c160414da2e initial upload shiltemann parents: diff changeset	1303 % (url, title_str, link_text)
3c160414da2e initial upload shiltemann parents: diff changeset	1304 result_head = '<a href="%s"%s>' % (url, title_str)
3c160414da2e initial upload shiltemann parents: diff changeset	1305 result = '%s%s</a>' % (result_head, link_text)
3c160414da2e initial upload shiltemann parents: diff changeset	1306 if "smarty-pants" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	1307 result = result.replace('"', self._escape_table['"'])
3c160414da2e initial upload shiltemann parents: diff changeset	1308 # <img> allowed from curr_pos on, <a> from
3c160414da2e initial upload shiltemann parents: diff changeset	1309 # anchor_allowed_pos on.
3c160414da2e initial upload shiltemann parents: diff changeset	1310 curr_pos = start_idx + len(result_head)
3c160414da2e initial upload shiltemann parents: diff changeset	1311 anchor_allowed_pos = start_idx + len(result)
3c160414da2e initial upload shiltemann parents: diff changeset	1312 text = text[:start_idx] + result + text[match.end():]
3c160414da2e initial upload shiltemann parents: diff changeset	1313 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1314 # Anchor not allowed here.
3c160414da2e initial upload shiltemann parents: diff changeset	1315 curr_pos = start_idx + 1
3c160414da2e initial upload shiltemann parents: diff changeset	1316 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1317 # This id isn't defined, leave the markup alone.
3c160414da2e initial upload shiltemann parents: diff changeset	1318 curr_pos = match.end()
3c160414da2e initial upload shiltemann parents: diff changeset	1319 continue
3c160414da2e initial upload shiltemann parents: diff changeset	1320
3c160414da2e initial upload shiltemann parents: diff changeset	1321 # Otherwise, it isn't markup.
3c160414da2e initial upload shiltemann parents: diff changeset	1322 curr_pos = start_idx + 1
3c160414da2e initial upload shiltemann parents: diff changeset	1323
3c160414da2e initial upload shiltemann parents: diff changeset	1324 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1325
3c160414da2e initial upload shiltemann parents: diff changeset	1326 def header_id_from_text(self, text, prefix, n):
3c160414da2e initial upload shiltemann parents: diff changeset	1327 """Generate a header id attribute value from the given header
3c160414da2e initial upload shiltemann parents: diff changeset	1328 HTML content.
3c160414da2e initial upload shiltemann parents: diff changeset	1329
3c160414da2e initial upload shiltemann parents: diff changeset	1330 This is only called if the "header-ids" extra is enabled.
3c160414da2e initial upload shiltemann parents: diff changeset	1331 Subclasses may override this for different header ids.
3c160414da2e initial upload shiltemann parents: diff changeset	1332
3c160414da2e initial upload shiltemann parents: diff changeset	1333 @param text {str} The text of the header tag
3c160414da2e initial upload shiltemann parents: diff changeset	1334 @param prefix {str} The requested prefix for header ids. This is the
3c160414da2e initial upload shiltemann parents: diff changeset	1335 value of the "header-ids" extra key, if any. Otherwise, None.
3c160414da2e initial upload shiltemann parents: diff changeset	1336 @param n {int} The <hN> tag number, i.e. `1` for an <h1> tag.
3c160414da2e initial upload shiltemann parents: diff changeset	1337 @returns {str} The value for the header tag's "id" attribute. Return
3c160414da2e initial upload shiltemann parents: diff changeset	1338 None to not have an id attribute and to exclude this header from
3c160414da2e initial upload shiltemann parents: diff changeset	1339 the TOC (if the "toc" extra is specified).
3c160414da2e initial upload shiltemann parents: diff changeset	1340 """
3c160414da2e initial upload shiltemann parents: diff changeset	1341 header_id = _slugify(text)
3c160414da2e initial upload shiltemann parents: diff changeset	1342 if prefix and isinstance(prefix, base_string_type):
3c160414da2e initial upload shiltemann parents: diff changeset	1343 header_id = prefix + '-' + header_id
3c160414da2e initial upload shiltemann parents: diff changeset	1344 if header_id in self._count_from_header_id:
3c160414da2e initial upload shiltemann parents: diff changeset	1345 self._count_from_header_id[header_id] += 1
3c160414da2e initial upload shiltemann parents: diff changeset	1346 header_id += '-%s' % self._count_from_header_id[header_id]
3c160414da2e initial upload shiltemann parents: diff changeset	1347 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1348 self._count_from_header_id[header_id] = 1
3c160414da2e initial upload shiltemann parents: diff changeset	1349 return header_id
3c160414da2e initial upload shiltemann parents: diff changeset	1350
3c160414da2e initial upload shiltemann parents: diff changeset	1351 _toc = None
3c160414da2e initial upload shiltemann parents: diff changeset	1352 def _toc_add_entry(self, level, id, name):
3c160414da2e initial upload shiltemann parents: diff changeset	1353 if self._toc is None:
3c160414da2e initial upload shiltemann parents: diff changeset	1354 self._toc = []
3c160414da2e initial upload shiltemann parents: diff changeset	1355 self._toc.append((level, id, self._unescape_special_chars(name)))
3c160414da2e initial upload shiltemann parents: diff changeset	1356
3c160414da2e initial upload shiltemann parents: diff changeset	1357 _h_re_base = r'''
3c160414da2e initial upload shiltemann parents: diff changeset	1358 (^(.+)[ \t]\n(=+\|-+)[ \t]\n+)
3c160414da2e initial upload shiltemann parents: diff changeset	1359 \|
3c160414da2e initial upload shiltemann parents: diff changeset	1360 (^(\#{1,6}) # \1 = string of #'s
3c160414da2e initial upload shiltemann parents: diff changeset	1361 [ \t]%s
3c160414da2e initial upload shiltemann parents: diff changeset	1362 (.+?) # \2 = Header text
3c160414da2e initial upload shiltemann parents: diff changeset	1363 [ \t]*
3c160414da2e initial upload shiltemann parents: diff changeset	1364 (?<!\\) # ensure not an escaped trailing '#'
3c160414da2e initial upload shiltemann parents: diff changeset	1365 \#* # optional closing #'s (not counted)
3c160414da2e initial upload shiltemann parents: diff changeset	1366 \n+
3c160414da2e initial upload shiltemann parents: diff changeset	1367 )
3c160414da2e initial upload shiltemann parents: diff changeset	1368 '''
3c160414da2e initial upload shiltemann parents: diff changeset	1369
3c160414da2e initial upload shiltemann parents: diff changeset	1370 _h_re = re.compile(_h_re_base % '*', re.X \| re.M)
3c160414da2e initial upload shiltemann parents: diff changeset	1371 _h_re_tag_friendly = re.compile(_h_re_base % '+', re.X \| re.M)
3c160414da2e initial upload shiltemann parents: diff changeset	1372
3c160414da2e initial upload shiltemann parents: diff changeset	1373 def _h_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	1374 if match.group(1) is not None:
3c160414da2e initial upload shiltemann parents: diff changeset	1375 # Setext header
3c160414da2e initial upload shiltemann parents: diff changeset	1376 n = {"=": 1, "-": 2}[match.group(3)[0]]
3c160414da2e initial upload shiltemann parents: diff changeset	1377 header_group = match.group(2)
3c160414da2e initial upload shiltemann parents: diff changeset	1378 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1379 # atx header
3c160414da2e initial upload shiltemann parents: diff changeset	1380 n = len(match.group(5))
3c160414da2e initial upload shiltemann parents: diff changeset	1381 header_group = match.group(6)
3c160414da2e initial upload shiltemann parents: diff changeset	1382
3c160414da2e initial upload shiltemann parents: diff changeset	1383 demote_headers = self.extras.get("demote-headers")
3c160414da2e initial upload shiltemann parents: diff changeset	1384 if demote_headers:
3c160414da2e initial upload shiltemann parents: diff changeset	1385 n = min(n + demote_headers, 6)
3c160414da2e initial upload shiltemann parents: diff changeset	1386 header_id_attr = ""
3c160414da2e initial upload shiltemann parents: diff changeset	1387 if "header-ids" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	1388 header_id = self.header_id_from_text(header_group,
3c160414da2e initial upload shiltemann parents: diff changeset	1389 self.extras["header-ids"], n)
3c160414da2e initial upload shiltemann parents: diff changeset	1390 if header_id:
3c160414da2e initial upload shiltemann parents: diff changeset	1391 header_id_attr = ' id="%s"' % header_id
3c160414da2e initial upload shiltemann parents: diff changeset	1392 html = self._run_span_gamut(header_group)
3c160414da2e initial upload shiltemann parents: diff changeset	1393 if "toc" in self.extras and header_id:
3c160414da2e initial upload shiltemann parents: diff changeset	1394 self._toc_add_entry(n, header_id, html)
3c160414da2e initial upload shiltemann parents: diff changeset	1395 return "<h%d%s>%s</h%d>\n\n" % (n, header_id_attr, html, n)
3c160414da2e initial upload shiltemann parents: diff changeset	1396
3c160414da2e initial upload shiltemann parents: diff changeset	1397 def _do_headers(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1398 # Setext-style headers:
3c160414da2e initial upload shiltemann parents: diff changeset	1399 # Header 1
3c160414da2e initial upload shiltemann parents: diff changeset	1400 # ========
3c160414da2e initial upload shiltemann parents: diff changeset	1401 #
3c160414da2e initial upload shiltemann parents: diff changeset	1402 # Header 2
3c160414da2e initial upload shiltemann parents: diff changeset	1403 # --------
3c160414da2e initial upload shiltemann parents: diff changeset	1404
3c160414da2e initial upload shiltemann parents: diff changeset	1405 # atx-style headers:
3c160414da2e initial upload shiltemann parents: diff changeset	1406 # # Header 1
3c160414da2e initial upload shiltemann parents: diff changeset	1407 # ## Header 2
3c160414da2e initial upload shiltemann parents: diff changeset	1408 # ## Header 2 with closing hashes ##
3c160414da2e initial upload shiltemann parents: diff changeset	1409 # ...
3c160414da2e initial upload shiltemann parents: diff changeset	1410 # ###### Header 6
3c160414da2e initial upload shiltemann parents: diff changeset	1411
3c160414da2e initial upload shiltemann parents: diff changeset	1412 if 'tag-friendly' in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	1413 return self._h_re_tag_friendly.sub(self._h_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	1414 return self._h_re.sub(self._h_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	1415
3c160414da2e initial upload shiltemann parents: diff changeset	1416 _marker_ul_chars = '*+-'
3c160414da2e initial upload shiltemann parents: diff changeset	1417 _marker_any = r'(?:[%s]\|\d+\.)' % _marker_ul_chars
3c160414da2e initial upload shiltemann parents: diff changeset	1418 _marker_ul = '(?:[%s])' % _marker_ul_chars
3c160414da2e initial upload shiltemann parents: diff changeset	1419 _marker_ol = r'(?:\d+\.)'
3c160414da2e initial upload shiltemann parents: diff changeset	1420
3c160414da2e initial upload shiltemann parents: diff changeset	1421 def _list_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	1422 lst = match.group(1)
3c160414da2e initial upload shiltemann parents: diff changeset	1423 lst_type = match.group(3) in self._marker_ul_chars and "ul" or "ol"
3c160414da2e initial upload shiltemann parents: diff changeset	1424 result = self._process_list_items(lst)
3c160414da2e initial upload shiltemann parents: diff changeset	1425 if self.list_level:
3c160414da2e initial upload shiltemann parents: diff changeset	1426 return "<%s>\n%s</%s>\n" % (lst_type, result, lst_type)
3c160414da2e initial upload shiltemann parents: diff changeset	1427 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1428 return "<%s>\n%s</%s>\n\n" % (lst_type, result, lst_type)
3c160414da2e initial upload shiltemann parents: diff changeset	1429
3c160414da2e initial upload shiltemann parents: diff changeset	1430 def _do_lists(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1431 # Form HTML ordered (numbered) and unordered (bulleted) lists.
3c160414da2e initial upload shiltemann parents: diff changeset	1432
3c160414da2e initial upload shiltemann parents: diff changeset	1433 # Iterate over each non-overlapping list match.
3c160414da2e initial upload shiltemann parents: diff changeset	1434 pos = 0
3c160414da2e initial upload shiltemann parents: diff changeset	1435 while True:
3c160414da2e initial upload shiltemann parents: diff changeset	1436 # Find the first hit for either list style (ul or ol). We
3c160414da2e initial upload shiltemann parents: diff changeset	1437 # match ul and ol separately to avoid adjacent lists of different
3c160414da2e initial upload shiltemann parents: diff changeset	1438 # types running into each other (see issue #16).
3c160414da2e initial upload shiltemann parents: diff changeset	1439 hits = []
3c160414da2e initial upload shiltemann parents: diff changeset	1440 for marker_pat in (self._marker_ul, self._marker_ol):
3c160414da2e initial upload shiltemann parents: diff changeset	1441 less_than_tab = self.tab_width - 1
3c160414da2e initial upload shiltemann parents: diff changeset	1442 whole_list = r'''
3c160414da2e initial upload shiltemann parents: diff changeset	1443 ( # \1 = whole list
3c160414da2e initial upload shiltemann parents: diff changeset	1444 ( # \2
3c160414da2e initial upload shiltemann parents: diff changeset	1445 [ ]{0,%d}
3c160414da2e initial upload shiltemann parents: diff changeset	1446 (%s) # \3 = first list item marker
3c160414da2e initial upload shiltemann parents: diff changeset	1447 [ \t]+
3c160414da2e initial upload shiltemann parents: diff changeset	1448 (?!\ *\3\ ) # '- - - ...' isn't a list. See 'not_quite_a_list' test case.
3c160414da2e initial upload shiltemann parents: diff changeset	1449 )
3c160414da2e initial upload shiltemann parents: diff changeset	1450 (?:.+?)
3c160414da2e initial upload shiltemann parents: diff changeset	1451 ( # \4
3c160414da2e initial upload shiltemann parents: diff changeset	1452 \Z
3c160414da2e initial upload shiltemann parents: diff changeset	1453 \|
3c160414da2e initial upload shiltemann parents: diff changeset	1454 \n{2,}
3c160414da2e initial upload shiltemann parents: diff changeset	1455 (?=\S)
3c160414da2e initial upload shiltemann parents: diff changeset	1456 (?! # Negative lookahead for another list item marker
3c160414da2e initial upload shiltemann parents: diff changeset	1457 [ \t]*
3c160414da2e initial upload shiltemann parents: diff changeset	1458 %s[ \t]+
3c160414da2e initial upload shiltemann parents: diff changeset	1459 )
3c160414da2e initial upload shiltemann parents: diff changeset	1460 )
3c160414da2e initial upload shiltemann parents: diff changeset	1461 )
3c160414da2e initial upload shiltemann parents: diff changeset	1462 ''' % (less_than_tab, marker_pat, marker_pat)
3c160414da2e initial upload shiltemann parents: diff changeset	1463 if self.list_level: # sub-list
3c160414da2e initial upload shiltemann parents: diff changeset	1464 list_re = re.compile("^"+whole_list, re.X \| re.M \| re.S)
3c160414da2e initial upload shiltemann parents: diff changeset	1465 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1466 list_re = re.compile(r"(?:(?<=\n\n)\|\A\n?)"+whole_list,
3c160414da2e initial upload shiltemann parents: diff changeset	1467 re.X \| re.M \| re.S)
3c160414da2e initial upload shiltemann parents: diff changeset	1468 match = list_re.search(text, pos)
3c160414da2e initial upload shiltemann parents: diff changeset	1469 if match:
3c160414da2e initial upload shiltemann parents: diff changeset	1470 hits.append((match.start(), match))
3c160414da2e initial upload shiltemann parents: diff changeset	1471 if not hits:
3c160414da2e initial upload shiltemann parents: diff changeset	1472 break
3c160414da2e initial upload shiltemann parents: diff changeset	1473 hits.sort()
3c160414da2e initial upload shiltemann parents: diff changeset	1474 match = hits[0][1]
3c160414da2e initial upload shiltemann parents: diff changeset	1475 start, end = match.span()
3c160414da2e initial upload shiltemann parents: diff changeset	1476 middle = self._list_sub(match)
3c160414da2e initial upload shiltemann parents: diff changeset	1477 text = text[:start] + middle + text[end:]
3c160414da2e initial upload shiltemann parents: diff changeset	1478 pos = start + len(middle) # start pos for next attempted match
3c160414da2e initial upload shiltemann parents: diff changeset	1479
3c160414da2e initial upload shiltemann parents: diff changeset	1480 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1481
3c160414da2e initial upload shiltemann parents: diff changeset	1482 _list_item_re = re.compile(r'''
3c160414da2e initial upload shiltemann parents: diff changeset	1483 (\n)? # leading line = \1
3c160414da2e initial upload shiltemann parents: diff changeset	1484 (^[ \t]*) # leading whitespace = \2
3c160414da2e initial upload shiltemann parents: diff changeset	1485 (?P<marker>%s) [ \t]+ # list marker = \3
3c160414da2e initial upload shiltemann parents: diff changeset	1486 ((?:.+?) # list item text = \4
3c160414da2e initial upload shiltemann parents: diff changeset	1487 (\n{1,2})) # eols = \5
3c160414da2e initial upload shiltemann parents: diff changeset	1488 (?= \n* (\Z \| \2 (?P<next_marker>%s) [ \t]+))
3c160414da2e initial upload shiltemann parents: diff changeset	1489 ''' % (_marker_any, _marker_any),
3c160414da2e initial upload shiltemann parents: diff changeset	1490 re.M \| re.X \| re.S)
3c160414da2e initial upload shiltemann parents: diff changeset	1491
3c160414da2e initial upload shiltemann parents: diff changeset	1492 _last_li_endswith_two_eols = False
3c160414da2e initial upload shiltemann parents: diff changeset	1493 def _list_item_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	1494 item = match.group(4)
3c160414da2e initial upload shiltemann parents: diff changeset	1495 leading_line = match.group(1)
3c160414da2e initial upload shiltemann parents: diff changeset	1496 leading_space = match.group(2)
3c160414da2e initial upload shiltemann parents: diff changeset	1497 if leading_line or "\n\n" in item or self._last_li_endswith_two_eols:
3c160414da2e initial upload shiltemann parents: diff changeset	1498 item = self._run_block_gamut(self._outdent(item))
3c160414da2e initial upload shiltemann parents: diff changeset	1499 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1500 # Recursion for sub-lists:
3c160414da2e initial upload shiltemann parents: diff changeset	1501 item = self._do_lists(self._outdent(item))
3c160414da2e initial upload shiltemann parents: diff changeset	1502 if item.endswith('\n'):
3c160414da2e initial upload shiltemann parents: diff changeset	1503 item = item[:-1]
3c160414da2e initial upload shiltemann parents: diff changeset	1504 item = self._run_span_gamut(item)
3c160414da2e initial upload shiltemann parents: diff changeset	1505 self._last_li_endswith_two_eols = (len(match.group(5)) == 2)
3c160414da2e initial upload shiltemann parents: diff changeset	1506 return "<li>%s</li>\n" % item
3c160414da2e initial upload shiltemann parents: diff changeset	1507
3c160414da2e initial upload shiltemann parents: diff changeset	1508 def _process_list_items(self, list_str):
3c160414da2e initial upload shiltemann parents: diff changeset	1509 # Process the contents of a single ordered or unordered list,
3c160414da2e initial upload shiltemann parents: diff changeset	1510 # splitting it into individual list items.
3c160414da2e initial upload shiltemann parents: diff changeset	1511
3c160414da2e initial upload shiltemann parents: diff changeset	1512 # The $g_list_level global keeps track of when we're inside a list.
3c160414da2e initial upload shiltemann parents: diff changeset	1513 # Each time we enter a list, we increment it; when we leave a list,
3c160414da2e initial upload shiltemann parents: diff changeset	1514 # we decrement. If it's zero, we're not in a list anymore.
3c160414da2e initial upload shiltemann parents: diff changeset	1515 #
3c160414da2e initial upload shiltemann parents: diff changeset	1516 # We do this because when we're not inside a list, we want to treat
3c160414da2e initial upload shiltemann parents: diff changeset	1517 # something like this:
3c160414da2e initial upload shiltemann parents: diff changeset	1518 #
3c160414da2e initial upload shiltemann parents: diff changeset	1519 # I recommend upgrading to version
3c160414da2e initial upload shiltemann parents: diff changeset	1520 # 8. Oops, now this line is treated
3c160414da2e initial upload shiltemann parents: diff changeset	1521 # as a sub-list.
3c160414da2e initial upload shiltemann parents: diff changeset	1522 #
3c160414da2e initial upload shiltemann parents: diff changeset	1523 # As a single paragraph, despite the fact that the second line starts
3c160414da2e initial upload shiltemann parents: diff changeset	1524 # with a digit-period-space sequence.
3c160414da2e initial upload shiltemann parents: diff changeset	1525 #
3c160414da2e initial upload shiltemann parents: diff changeset	1526 # Whereas when we're inside a list (or sub-list), that line will be
3c160414da2e initial upload shiltemann parents: diff changeset	1527 # treated as the start of a sub-list. What a kludge, huh? This is
3c160414da2e initial upload shiltemann parents: diff changeset	1528 # an aspect of Markdown's syntax that's hard to parse perfectly
3c160414da2e initial upload shiltemann parents: diff changeset	1529 # without resorting to mind-reading. Perhaps the solution is to
3c160414da2e initial upload shiltemann parents: diff changeset	1530 # change the syntax rules such that sub-lists must start with a
3c160414da2e initial upload shiltemann parents: diff changeset	1531 # starting cardinal number; e.g. "1." or "a.".
3c160414da2e initial upload shiltemann parents: diff changeset	1532 self.list_level += 1
3c160414da2e initial upload shiltemann parents: diff changeset	1533 self._last_li_endswith_two_eols = False
3c160414da2e initial upload shiltemann parents: diff changeset	1534 list_str = list_str.rstrip('\n') + '\n'
3c160414da2e initial upload shiltemann parents: diff changeset	1535 list_str = self._list_item_re.sub(self._list_item_sub, list_str)
3c160414da2e initial upload shiltemann parents: diff changeset	1536 self.list_level -= 1
3c160414da2e initial upload shiltemann parents: diff changeset	1537 return list_str
3c160414da2e initial upload shiltemann parents: diff changeset	1538
3c160414da2e initial upload shiltemann parents: diff changeset	1539 def _get_pygments_lexer(self, lexer_name):
3c160414da2e initial upload shiltemann parents: diff changeset	1540 try:
3c160414da2e initial upload shiltemann parents: diff changeset	1541 from pygments import lexers, util
3c160414da2e initial upload shiltemann parents: diff changeset	1542 except ImportError:
3c160414da2e initial upload shiltemann parents: diff changeset	1543 return None
3c160414da2e initial upload shiltemann parents: diff changeset	1544 try:
3c160414da2e initial upload shiltemann parents: diff changeset	1545 return lexers.get_lexer_by_name(lexer_name)
3c160414da2e initial upload shiltemann parents: diff changeset	1546 except util.ClassNotFound:
3c160414da2e initial upload shiltemann parents: diff changeset	1547 return None
3c160414da2e initial upload shiltemann parents: diff changeset	1548
3c160414da2e initial upload shiltemann parents: diff changeset	1549 def _color_with_pygments(self, codeblock, lexer, **formatter_opts):
3c160414da2e initial upload shiltemann parents: diff changeset	1550 import pygments
3c160414da2e initial upload shiltemann parents: diff changeset	1551 import pygments.formatters
3c160414da2e initial upload shiltemann parents: diff changeset	1552
3c160414da2e initial upload shiltemann parents: diff changeset	1553 class HtmlCodeFormatter(pygments.formatters.HtmlFormatter):
3c160414da2e initial upload shiltemann parents: diff changeset	1554 def _wrap_code(self, inner):
3c160414da2e initial upload shiltemann parents: diff changeset	1555 """A function for use in a Pygments Formatter which
3c160414da2e initial upload shiltemann parents: diff changeset	1556 wraps in <code> tags.
3c160414da2e initial upload shiltemann parents: diff changeset	1557 """
3c160414da2e initial upload shiltemann parents: diff changeset	1558 yield 0, "<code>"
3c160414da2e initial upload shiltemann parents: diff changeset	1559 for tup in inner:
3c160414da2e initial upload shiltemann parents: diff changeset	1560 yield tup
3c160414da2e initial upload shiltemann parents: diff changeset	1561 yield 0, "</code>"
3c160414da2e initial upload shiltemann parents: diff changeset	1562
3c160414da2e initial upload shiltemann parents: diff changeset	1563 def wrap(self, source, outfile):
3c160414da2e initial upload shiltemann parents: diff changeset	1564 """Return the source with a code, pre, and div."""
3c160414da2e initial upload shiltemann parents: diff changeset	1565 return self._wrap_div(self._wrap_pre(self._wrap_code(source)))
3c160414da2e initial upload shiltemann parents: diff changeset	1566
3c160414da2e initial upload shiltemann parents: diff changeset	1567 formatter_opts.setdefault("cssclass", "codehilite")
3c160414da2e initial upload shiltemann parents: diff changeset	1568 formatter = HtmlCodeFormatter(**formatter_opts)
3c160414da2e initial upload shiltemann parents: diff changeset	1569 return pygments.highlight(codeblock, lexer, formatter)
3c160414da2e initial upload shiltemann parents: diff changeset	1570
3c160414da2e initial upload shiltemann parents: diff changeset	1571 def _code_block_sub(self, match, is_fenced_code_block=False):
3c160414da2e initial upload shiltemann parents: diff changeset	1572 lexer_name = None
3c160414da2e initial upload shiltemann parents: diff changeset	1573 if is_fenced_code_block:
3c160414da2e initial upload shiltemann parents: diff changeset	1574 lexer_name = match.group(1)
3c160414da2e initial upload shiltemann parents: diff changeset	1575 if lexer_name:
3c160414da2e initial upload shiltemann parents: diff changeset	1576 formatter_opts = self.extras['fenced-code-blocks'] or {}
3c160414da2e initial upload shiltemann parents: diff changeset	1577 codeblock = match.group(2)
3c160414da2e initial upload shiltemann parents: diff changeset	1578 codeblock = codeblock[:-1] # drop one trailing newline
3c160414da2e initial upload shiltemann parents: diff changeset	1579 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1580 codeblock = match.group(1)
3c160414da2e initial upload shiltemann parents: diff changeset	1581 codeblock = self._outdent(codeblock)
3c160414da2e initial upload shiltemann parents: diff changeset	1582 codeblock = self._detab(codeblock)
3c160414da2e initial upload shiltemann parents: diff changeset	1583 codeblock = codeblock.lstrip('\n') # trim leading newlines
3c160414da2e initial upload shiltemann parents: diff changeset	1584 codeblock = codeblock.rstrip() # trim trailing whitespace
3c160414da2e initial upload shiltemann parents: diff changeset	1585
3c160414da2e initial upload shiltemann parents: diff changeset	1586 # Note: "code-color" extra is DEPRECATED.
3c160414da2e initial upload shiltemann parents: diff changeset	1587 if "code-color" in self.extras and codeblock.startswith(":::"):
3c160414da2e initial upload shiltemann parents: diff changeset	1588 lexer_name, rest = codeblock.split('\n', 1)
3c160414da2e initial upload shiltemann parents: diff changeset	1589 lexer_name = lexer_name[3:].strip()
3c160414da2e initial upload shiltemann parents: diff changeset	1590 codeblock = rest.lstrip("\n") # Remove lexer declaration line.
3c160414da2e initial upload shiltemann parents: diff changeset	1591 formatter_opts = self.extras['code-color'] or {}
3c160414da2e initial upload shiltemann parents: diff changeset	1592
3c160414da2e initial upload shiltemann parents: diff changeset	1593 if lexer_name:
3c160414da2e initial upload shiltemann parents: diff changeset	1594 def unhash_code( codeblock ):
3c160414da2e initial upload shiltemann parents: diff changeset	1595 for key, sanitized in list(self.html_spans.items()):
3c160414da2e initial upload shiltemann parents: diff changeset	1596 codeblock = codeblock.replace(key, sanitized)
3c160414da2e initial upload shiltemann parents: diff changeset	1597 replacements = [
3c160414da2e initial upload shiltemann parents: diff changeset	1598 ("&", "&"),
3c160414da2e initial upload shiltemann parents: diff changeset	1599 ("<", "<"),
3c160414da2e initial upload shiltemann parents: diff changeset	1600 (">", ">")
3c160414da2e initial upload shiltemann parents: diff changeset	1601 ]
3c160414da2e initial upload shiltemann parents: diff changeset	1602 for old, new in replacements:
3c160414da2e initial upload shiltemann parents: diff changeset	1603 codeblock = codeblock.replace(old, new)
3c160414da2e initial upload shiltemann parents: diff changeset	1604 return codeblock
3c160414da2e initial upload shiltemann parents: diff changeset	1605 lexer = self._get_pygments_lexer(lexer_name)
3c160414da2e initial upload shiltemann parents: diff changeset	1606 if lexer:
3c160414da2e initial upload shiltemann parents: diff changeset	1607 codeblock = unhash_code( codeblock )
3c160414da2e initial upload shiltemann parents: diff changeset	1608 colored = self._color_with_pygments(codeblock, lexer,
3c160414da2e initial upload shiltemann parents: diff changeset	1609 **formatter_opts)
3c160414da2e initial upload shiltemann parents: diff changeset	1610 return "\n\n%s\n\n" % colored
3c160414da2e initial upload shiltemann parents: diff changeset	1611
3c160414da2e initial upload shiltemann parents: diff changeset	1612 codeblock = self._encode_code(codeblock)
3c160414da2e initial upload shiltemann parents: diff changeset	1613 pre_class_str = self._html_class_str_from_tag("pre")
3c160414da2e initial upload shiltemann parents: diff changeset	1614 code_class_str = self._html_class_str_from_tag("code")
3c160414da2e initial upload shiltemann parents: diff changeset	1615 return "\n\n<pre%s><code%s>%s\n</code></pre>\n\n" % (
3c160414da2e initial upload shiltemann parents: diff changeset	1616 pre_class_str, code_class_str, codeblock)
3c160414da2e initial upload shiltemann parents: diff changeset	1617
3c160414da2e initial upload shiltemann parents: diff changeset	1618 def _html_class_str_from_tag(self, tag):
3c160414da2e initial upload shiltemann parents: diff changeset	1619 """Get the appropriate ' class="..."' string (note the leading
3c160414da2e initial upload shiltemann parents: diff changeset	1620 space), if any, for the given tag.
3c160414da2e initial upload shiltemann parents: diff changeset	1621 """
3c160414da2e initial upload shiltemann parents: diff changeset	1622 if "html-classes" not in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	1623 return ""
3c160414da2e initial upload shiltemann parents: diff changeset	1624 try:
3c160414da2e initial upload shiltemann parents: diff changeset	1625 html_classes_from_tag = self.extras["html-classes"]
3c160414da2e initial upload shiltemann parents: diff changeset	1626 except TypeError:
3c160414da2e initial upload shiltemann parents: diff changeset	1627 return ""
3c160414da2e initial upload shiltemann parents: diff changeset	1628 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1629 if tag in html_classes_from_tag:
3c160414da2e initial upload shiltemann parents: diff changeset	1630 return ' class="%s"' % html_classes_from_tag[tag]
3c160414da2e initial upload shiltemann parents: diff changeset	1631 return ""
3c160414da2e initial upload shiltemann parents: diff changeset	1632
3c160414da2e initial upload shiltemann parents: diff changeset	1633 def _do_code_blocks(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1634 """Process Markdown `<pre><code>` blocks."""
3c160414da2e initial upload shiltemann parents: diff changeset	1635 code_block_re = re.compile(r'''
3c160414da2e initial upload shiltemann parents: diff changeset	1636 (?:\n\n\|\A\n?)
3c160414da2e initial upload shiltemann parents: diff changeset	1637 ( # $1 = the code block -- one or more lines, starting with a space/tab
3c160414da2e initial upload shiltemann parents: diff changeset	1638 (?:
3c160414da2e initial upload shiltemann parents: diff changeset	1639 (?:[ ]{%d} \| \t) # Lines must start with a tab or a tab-width of spaces
3c160414da2e initial upload shiltemann parents: diff changeset	1640 .*\n+
3c160414da2e initial upload shiltemann parents: diff changeset	1641 )+
3c160414da2e initial upload shiltemann parents: diff changeset	1642 )
3c160414da2e initial upload shiltemann parents: diff changeset	1643 ((?=^[ ]{0,%d}\S)\|\Z) # Lookahead for non-space at line-start, or end of doc
3c160414da2e initial upload shiltemann parents: diff changeset	1644 # Lookahead to make sure this block isn't already in a code block.
3c160414da2e initial upload shiltemann parents: diff changeset	1645 # Needed when syntax highlighting is being used.
3c160414da2e initial upload shiltemann parents: diff changeset	1646 (?![^<]*\</code\>)
3c160414da2e initial upload shiltemann parents: diff changeset	1647 ''' % (self.tab_width, self.tab_width),
3c160414da2e initial upload shiltemann parents: diff changeset	1648 re.M \| re.X)
3c160414da2e initial upload shiltemann parents: diff changeset	1649 return code_block_re.sub(self._code_block_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	1650
3c160414da2e initial upload shiltemann parents: diff changeset	1651 _fenced_code_block_re = re.compile(r'''
3c160414da2e initial upload shiltemann parents: diff changeset	1652 (?:\n\n\|\A\n?)
3c160414da2e initial upload shiltemann parents: diff changeset	1653 ^```([\w+-]+)?[ \t]*\n # opening fence, $1 = optional lang
3c160414da2e initial upload shiltemann parents: diff changeset	1654 (.*?) # $2 = code block content
3c160414da2e initial upload shiltemann parents: diff changeset	1655 ^```[ \t]*\n # closing fence
3c160414da2e initial upload shiltemann parents: diff changeset	1656 ''', re.M \| re.X \| re.S)
3c160414da2e initial upload shiltemann parents: diff changeset	1657
3c160414da2e initial upload shiltemann parents: diff changeset	1658 def _fenced_code_block_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	1659 return self._code_block_sub(match, is_fenced_code_block=True);
3c160414da2e initial upload shiltemann parents: diff changeset	1660
3c160414da2e initial upload shiltemann parents: diff changeset	1661 def _do_fenced_code_blocks(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1662 """Process ```-fenced unindented code blocks ('fenced-code-blocks' extra)."""
3c160414da2e initial upload shiltemann parents: diff changeset	1663 return self._fenced_code_block_re.sub(self._fenced_code_block_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	1664
3c160414da2e initial upload shiltemann parents: diff changeset	1665 # Rules for a code span:
3c160414da2e initial upload shiltemann parents: diff changeset	1666 # - backslash escapes are not interpreted in a code span
3c160414da2e initial upload shiltemann parents: diff changeset	1667 # - to include one or or a run of more backticks the delimiters must
3c160414da2e initial upload shiltemann parents: diff changeset	1668 # be a longer run of backticks
3c160414da2e initial upload shiltemann parents: diff changeset	1669 # - cannot start or end a code span with a backtick; pad with a
3c160414da2e initial upload shiltemann parents: diff changeset	1670 # space and that space will be removed in the emitted HTML
3c160414da2e initial upload shiltemann parents: diff changeset	1671 # See `test/tm-cases/escapes.text` for a number of edge-case
3c160414da2e initial upload shiltemann parents: diff changeset	1672 # examples.
3c160414da2e initial upload shiltemann parents: diff changeset	1673 _code_span_re = re.compile(r'''
3c160414da2e initial upload shiltemann parents: diff changeset	1674 (?<!\\)
3c160414da2e initial upload shiltemann parents: diff changeset	1675 (`+) # \1 = Opening run of `
3c160414da2e initial upload shiltemann parents: diff changeset	1676 (?!`) # See Note A test/tm-cases/escapes.text
3c160414da2e initial upload shiltemann parents: diff changeset	1677 (.+?) # \2 = The code block
3c160414da2e initial upload shiltemann parents: diff changeset	1678 (?<!`)
3c160414da2e initial upload shiltemann parents: diff changeset	1679 \1 # Matching closer
3c160414da2e initial upload shiltemann parents: diff changeset	1680 (?!`)
3c160414da2e initial upload shiltemann parents: diff changeset	1681 ''', re.X \| re.S)
3c160414da2e initial upload shiltemann parents: diff changeset	1682
3c160414da2e initial upload shiltemann parents: diff changeset	1683 def _code_span_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	1684 c = match.group(2).strip(" \t")
3c160414da2e initial upload shiltemann parents: diff changeset	1685 c = self._encode_code(c)
3c160414da2e initial upload shiltemann parents: diff changeset	1686 return "<code>%s</code>" % c
3c160414da2e initial upload shiltemann parents: diff changeset	1687
3c160414da2e initial upload shiltemann parents: diff changeset	1688 def _do_code_spans(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1689 # * Backtick quotes are used for <code></code> spans.
3c160414da2e initial upload shiltemann parents: diff changeset	1690 #
3c160414da2e initial upload shiltemann parents: diff changeset	1691 # * You can use multiple backticks as the delimiters if you want to
3c160414da2e initial upload shiltemann parents: diff changeset	1692 # include literal backticks in the code span. So, this input:
3c160414da2e initial upload shiltemann parents: diff changeset	1693 #
3c160414da2e initial upload shiltemann parents: diff changeset	1694 # Just type ``foo `bar` baz`` at the prompt.
3c160414da2e initial upload shiltemann parents: diff changeset	1695 #
3c160414da2e initial upload shiltemann parents: diff changeset	1696 # Will translate to:
3c160414da2e initial upload shiltemann parents: diff changeset	1697 #
3c160414da2e initial upload shiltemann parents: diff changeset	1698 # <p>Just type <code>foo `bar` baz</code> at the prompt.</p>
3c160414da2e initial upload shiltemann parents: diff changeset	1699 #
3c160414da2e initial upload shiltemann parents: diff changeset	1700 # There's no arbitrary limit to the number of backticks you
3c160414da2e initial upload shiltemann parents: diff changeset	1701 # can use as delimters. If you need three consecutive backticks
3c160414da2e initial upload shiltemann parents: diff changeset	1702 # in your code, use four for delimiters, etc.
3c160414da2e initial upload shiltemann parents: diff changeset	1703 #
3c160414da2e initial upload shiltemann parents: diff changeset	1704 # * You can use spaces to get literal backticks at the edges:
3c160414da2e initial upload shiltemann parents: diff changeset	1705 #
3c160414da2e initial upload shiltemann parents: diff changeset	1706 # ... type `` `bar` `` ...
3c160414da2e initial upload shiltemann parents: diff changeset	1707 #
3c160414da2e initial upload shiltemann parents: diff changeset	1708 # Turns to:
3c160414da2e initial upload shiltemann parents: diff changeset	1709 #
3c160414da2e initial upload shiltemann parents: diff changeset	1710 # ... type <code>`bar`</code> ...
3c160414da2e initial upload shiltemann parents: diff changeset	1711 return self._code_span_re.sub(self._code_span_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	1712
3c160414da2e initial upload shiltemann parents: diff changeset	1713 def _encode_code(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1714 """Encode/escape certain characters inside Markdown code runs.
3c160414da2e initial upload shiltemann parents: diff changeset	1715 The point is that in code, these characters are literals,
3c160414da2e initial upload shiltemann parents: diff changeset	1716 and lose their special Markdown meanings.
3c160414da2e initial upload shiltemann parents: diff changeset	1717 """
3c160414da2e initial upload shiltemann parents: diff changeset	1718 replacements = [
3c160414da2e initial upload shiltemann parents: diff changeset	1719 # Encode all ampersands; HTML entities are not
3c160414da2e initial upload shiltemann parents: diff changeset	1720 # entities within a Markdown code span.
3c160414da2e initial upload shiltemann parents: diff changeset	1721 ('&', '&'),
3c160414da2e initial upload shiltemann parents: diff changeset	1722 # Do the angle bracket song and dance:
3c160414da2e initial upload shiltemann parents: diff changeset	1723 ('<', '<'),
3c160414da2e initial upload shiltemann parents: diff changeset	1724 ('>', '>'),
3c160414da2e initial upload shiltemann parents: diff changeset	1725 ]
3c160414da2e initial upload shiltemann parents: diff changeset	1726 for before, after in replacements:
3c160414da2e initial upload shiltemann parents: diff changeset	1727 text = text.replace(before, after)
3c160414da2e initial upload shiltemann parents: diff changeset	1728 hashed = _hash_text(text)
3c160414da2e initial upload shiltemann parents: diff changeset	1729 self._escape_table[text] = hashed
3c160414da2e initial upload shiltemann parents: diff changeset	1730 return hashed
3c160414da2e initial upload shiltemann parents: diff changeset	1731
3c160414da2e initial upload shiltemann parents: diff changeset	1732 _strong_re = re.compile(r"(\\\|__)(?=\S)(.+?[_])(?<=\S)\1", re.S)
3c160414da2e initial upload shiltemann parents: diff changeset	1733 _em_re = re.compile(r"(\*\|_)(?=\S)(.+?)(?<=\S)\1", re.S)
3c160414da2e initial upload shiltemann parents: diff changeset	1734 _code_friendly_strong_re = re.compile(r"\\(?=\S)(.+?[_])(?<=\S)\\", re.S)
3c160414da2e initial upload shiltemann parents: diff changeset	1735 _code_friendly_em_re = re.compile(r"\(?=\S)(.+?)(?<=\S)\", re.S)
3c160414da2e initial upload shiltemann parents: diff changeset	1736 def _do_italics_and_bold(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1737 # <strong> must go first:
3c160414da2e initial upload shiltemann parents: diff changeset	1738 if "code-friendly" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	1739 text = self._code_friendly_strong_re.sub(r"<strong>\1</strong>", text)
3c160414da2e initial upload shiltemann parents: diff changeset	1740 text = self._code_friendly_em_re.sub(r"<em>\1</em>", text)
3c160414da2e initial upload shiltemann parents: diff changeset	1741 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1742 text = self._strong_re.sub(r"<strong>\2</strong>", text)
3c160414da2e initial upload shiltemann parents: diff changeset	1743 text = self._em_re.sub(r"<em>\2</em>", text)
3c160414da2e initial upload shiltemann parents: diff changeset	1744 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1745
3c160414da2e initial upload shiltemann parents: diff changeset	1746 # "smarty-pants" extra: Very liberal in interpreting a single prime as an
3c160414da2e initial upload shiltemann parents: diff changeset	1747 # apostrophe; e.g. ignores the fact that "round", "bout", "twer", and
3c160414da2e initial upload shiltemann parents: diff changeset	1748 # "twixt" can be written without an initial apostrophe. This is fine because
3c160414da2e initial upload shiltemann parents: diff changeset	1749 # using scare quotes (single quotation marks) is rare.
3c160414da2e initial upload shiltemann parents: diff changeset	1750 _apostrophe_year_re = re.compile(r"'(\d\d)(?=(\s\|,\|;\|\.\|\?\|!\|$))")
3c160414da2e initial upload shiltemann parents: diff changeset	1751 _contractions = ["tis", "twas", "twer", "neath", "o", "n",
3c160414da2e initial upload shiltemann parents: diff changeset	1752 "round", "bout", "twixt", "nuff", "fraid", "sup"]
3c160414da2e initial upload shiltemann parents: diff changeset	1753 def _do_smart_contractions(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1754 text = self._apostrophe_year_re.sub(r"’\1", text)
3c160414da2e initial upload shiltemann parents: diff changeset	1755 for c in self._contractions:
3c160414da2e initial upload shiltemann parents: diff changeset	1756 text = text.replace("'%s" % c, "’%s" % c)
3c160414da2e initial upload shiltemann parents: diff changeset	1757 text = text.replace("'%s" % c.capitalize(),
3c160414da2e initial upload shiltemann parents: diff changeset	1758 "’%s" % c.capitalize())
3c160414da2e initial upload shiltemann parents: diff changeset	1759 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1760
3c160414da2e initial upload shiltemann parents: diff changeset	1761 # Substitute double-quotes before single-quotes.
3c160414da2e initial upload shiltemann parents: diff changeset	1762 _opening_single_quote_re = re.compile(r"(?<!\S)'(?=\S)")
3c160414da2e initial upload shiltemann parents: diff changeset	1763 _opening_double_quote_re = re.compile(r'(?<!\S)"(?=\S)')
3c160414da2e initial upload shiltemann parents: diff changeset	1764 _closing_single_quote_re = re.compile(r"(?<=\S)'")
3c160414da2e initial upload shiltemann parents: diff changeset	1765 _closing_double_quote_re = re.compile(r'(?<=\S)"(?=(\s\|,\|;\|\.\|\?\|!\|$))')
3c160414da2e initial upload shiltemann parents: diff changeset	1766 def _do_smart_punctuation(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1767 """Fancifies 'single quotes', "double quotes", and apostrophes.
3c160414da2e initial upload shiltemann parents: diff changeset	1768 Converts --, ---, and ... into en dashes, em dashes, and ellipses.
3c160414da2e initial upload shiltemann parents: diff changeset	1769
3c160414da2e initial upload shiltemann parents: diff changeset	1770 Inspiration is: <http://daringfireball.net/projects/smartypants/>
3c160414da2e initial upload shiltemann parents: diff changeset	1771 See "test/tm-cases/smarty_pants.text" for a full discussion of the
3c160414da2e initial upload shiltemann parents: diff changeset	1772 support here and
3c160414da2e initial upload shiltemann parents: diff changeset	1773 <http://code.google.com/p/python-markdown2/issues/detail?id=42> for a
3c160414da2e initial upload shiltemann parents: diff changeset	1774 discussion of some diversion from the original SmartyPants.
3c160414da2e initial upload shiltemann parents: diff changeset	1775 """
3c160414da2e initial upload shiltemann parents: diff changeset	1776 if "'" in text: # guard for perf
3c160414da2e initial upload shiltemann parents: diff changeset	1777 text = self._do_smart_contractions(text)
3c160414da2e initial upload shiltemann parents: diff changeset	1778 text = self._opening_single_quote_re.sub("‘", text)
3c160414da2e initial upload shiltemann parents: diff changeset	1779 text = self._closing_single_quote_re.sub("’", text)
3c160414da2e initial upload shiltemann parents: diff changeset	1780
3c160414da2e initial upload shiltemann parents: diff changeset	1781 if '"' in text: # guard for perf
3c160414da2e initial upload shiltemann parents: diff changeset	1782 text = self._opening_double_quote_re.sub("“", text)
3c160414da2e initial upload shiltemann parents: diff changeset	1783 text = self._closing_double_quote_re.sub("”", text)
3c160414da2e initial upload shiltemann parents: diff changeset	1784
3c160414da2e initial upload shiltemann parents: diff changeset	1785 text = text.replace("---", "—")
3c160414da2e initial upload shiltemann parents: diff changeset	1786 text = text.replace("--", "–")
3c160414da2e initial upload shiltemann parents: diff changeset	1787 text = text.replace("...", "…")
3c160414da2e initial upload shiltemann parents: diff changeset	1788 text = text.replace(" . . . ", "…")
3c160414da2e initial upload shiltemann parents: diff changeset	1789 text = text.replace(". . .", "…")
3c160414da2e initial upload shiltemann parents: diff changeset	1790 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1791
3c160414da2e initial upload shiltemann parents: diff changeset	1792 _block_quote_re = re.compile(r'''
3c160414da2e initial upload shiltemann parents: diff changeset	1793 ( # Wrap whole match in \1
3c160414da2e initial upload shiltemann parents: diff changeset	1794 (
3c160414da2e initial upload shiltemann parents: diff changeset	1795 ^[ \t]*>[ \t]? # '>' at the start of a line
3c160414da2e initial upload shiltemann parents: diff changeset	1796 .+\n # rest of the first line
3c160414da2e initial upload shiltemann parents: diff changeset	1797 (.+\n)* # subsequent consecutive lines
3c160414da2e initial upload shiltemann parents: diff changeset	1798 \n* # blanks
3c160414da2e initial upload shiltemann parents: diff changeset	1799 )+
3c160414da2e initial upload shiltemann parents: diff changeset	1800 )
3c160414da2e initial upload shiltemann parents: diff changeset	1801 ''', re.M \| re.X)
3c160414da2e initial upload shiltemann parents: diff changeset	1802 _bq_one_level_re = re.compile('^[ \t]*>[ \t]?', re.M);
3c160414da2e initial upload shiltemann parents: diff changeset	1803
3c160414da2e initial upload shiltemann parents: diff changeset	1804 _html_pre_block_re = re.compile(r'(\s*<pre>.+?</pre>)', re.S)
3c160414da2e initial upload shiltemann parents: diff changeset	1805 def _dedent_two_spaces_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	1806 return re.sub(r'(?m)^ ', '', match.group(1))
3c160414da2e initial upload shiltemann parents: diff changeset	1807
3c160414da2e initial upload shiltemann parents: diff changeset	1808 def _block_quote_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	1809 bq = match.group(1)
3c160414da2e initial upload shiltemann parents: diff changeset	1810 bq = self._bq_one_level_re.sub('', bq) # trim one level of quoting
3c160414da2e initial upload shiltemann parents: diff changeset	1811 bq = self._ws_only_line_re.sub('', bq) # trim whitespace-only lines
3c160414da2e initial upload shiltemann parents: diff changeset	1812 bq = self._run_block_gamut(bq) # recurse
3c160414da2e initial upload shiltemann parents: diff changeset	1813
3c160414da2e initial upload shiltemann parents: diff changeset	1814 bq = re.sub('(?m)^', ' ', bq)
3c160414da2e initial upload shiltemann parents: diff changeset	1815 # These leading spaces screw with <pre> content, so we need to fix that:
3c160414da2e initial upload shiltemann parents: diff changeset	1816 bq = self._html_pre_block_re.sub(self._dedent_two_spaces_sub, bq)
3c160414da2e initial upload shiltemann parents: diff changeset	1817
3c160414da2e initial upload shiltemann parents: diff changeset	1818 return "<blockquote>\n%s\n</blockquote>\n\n" % bq
3c160414da2e initial upload shiltemann parents: diff changeset	1819
3c160414da2e initial upload shiltemann parents: diff changeset	1820 def _do_block_quotes(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1821 if '>' not in text:
3c160414da2e initial upload shiltemann parents: diff changeset	1822 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1823 return self._block_quote_re.sub(self._block_quote_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	1824
3c160414da2e initial upload shiltemann parents: diff changeset	1825 def _form_paragraphs(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1826 # Strip leading and trailing lines:
3c160414da2e initial upload shiltemann parents: diff changeset	1827 text = text.strip('\n')
3c160414da2e initial upload shiltemann parents: diff changeset	1828
3c160414da2e initial upload shiltemann parents: diff changeset	1829 # Wrap <p> tags.
3c160414da2e initial upload shiltemann parents: diff changeset	1830 grafs = []
3c160414da2e initial upload shiltemann parents: diff changeset	1831 for i, graf in enumerate(re.split(r"\n{2,}", text)):
3c160414da2e initial upload shiltemann parents: diff changeset	1832 if graf in self.html_blocks:
3c160414da2e initial upload shiltemann parents: diff changeset	1833 # Unhashify HTML blocks
3c160414da2e initial upload shiltemann parents: diff changeset	1834 grafs.append(self.html_blocks[graf])
3c160414da2e initial upload shiltemann parents: diff changeset	1835 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1836 cuddled_list = None
3c160414da2e initial upload shiltemann parents: diff changeset	1837 if "cuddled-lists" in self.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	1838 # Need to put back trailing '\n' for `_list_item_re`
3c160414da2e initial upload shiltemann parents: diff changeset	1839 # match at the end of the paragraph.
3c160414da2e initial upload shiltemann parents: diff changeset	1840 li = self._list_item_re.search(graf + '\n')
3c160414da2e initial upload shiltemann parents: diff changeset	1841 # Two of the same list marker in this paragraph: a likely
3c160414da2e initial upload shiltemann parents: diff changeset	1842 # candidate for a list cuddled to preceding paragraph
3c160414da2e initial upload shiltemann parents: diff changeset	1843 # text (issue 33). Note the `[-1]` is a quick way to
3c160414da2e initial upload shiltemann parents: diff changeset	1844 # consider numeric bullets (e.g. "1." and "2.") to be
3c160414da2e initial upload shiltemann parents: diff changeset	1845 # equal.
3c160414da2e initial upload shiltemann parents: diff changeset	1846 if (li and len(li.group(2)) <= 3 and li.group("next_marker")
3c160414da2e initial upload shiltemann parents: diff changeset	1847 and li.group("marker")[-1] == li.group("next_marker")[-1]):
3c160414da2e initial upload shiltemann parents: diff changeset	1848 start = li.start()
3c160414da2e initial upload shiltemann parents: diff changeset	1849 cuddled_list = self._do_lists(graf[start:]).rstrip("\n")
3c160414da2e initial upload shiltemann parents: diff changeset	1850 assert cuddled_list.startswith("<ul>") or cuddled_list.startswith("<ol>")
3c160414da2e initial upload shiltemann parents: diff changeset	1851 graf = graf[:start]
3c160414da2e initial upload shiltemann parents: diff changeset	1852
3c160414da2e initial upload shiltemann parents: diff changeset	1853 # Wrap <p> tags.
3c160414da2e initial upload shiltemann parents: diff changeset	1854 graf = self._run_span_gamut(graf)
3c160414da2e initial upload shiltemann parents: diff changeset	1855 grafs.append("<p>" + graf.lstrip(" \t") + "</p>")
3c160414da2e initial upload shiltemann parents: diff changeset	1856
3c160414da2e initial upload shiltemann parents: diff changeset	1857 if cuddled_list:
3c160414da2e initial upload shiltemann parents: diff changeset	1858 grafs.append(cuddled_list)
3c160414da2e initial upload shiltemann parents: diff changeset	1859
3c160414da2e initial upload shiltemann parents: diff changeset	1860 return "\n\n".join(grafs)
3c160414da2e initial upload shiltemann parents: diff changeset	1861
3c160414da2e initial upload shiltemann parents: diff changeset	1862 def _add_footnotes(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1863 if self.footnotes:
3c160414da2e initial upload shiltemann parents: diff changeset	1864 footer = [
3c160414da2e initial upload shiltemann parents: diff changeset	1865 '<div class="footnotes">',
3c160414da2e initial upload shiltemann parents: diff changeset	1866 '<hr' + self.empty_element_suffix,
3c160414da2e initial upload shiltemann parents: diff changeset	1867 '<ol>',
3c160414da2e initial upload shiltemann parents: diff changeset	1868 ]
3c160414da2e initial upload shiltemann parents: diff changeset	1869 for i, id in enumerate(self.footnote_ids):
3c160414da2e initial upload shiltemann parents: diff changeset	1870 if i != 0:
3c160414da2e initial upload shiltemann parents: diff changeset	1871 footer.append('')
3c160414da2e initial upload shiltemann parents: diff changeset	1872 footer.append('<li id="fn-%s">' % id)
3c160414da2e initial upload shiltemann parents: diff changeset	1873 footer.append(self._run_block_gamut(self.footnotes[id]))
3c160414da2e initial upload shiltemann parents: diff changeset	1874 backlink = ('<a href="#fnref-%s" '
3c160414da2e initial upload shiltemann parents: diff changeset	1875 'class="footnoteBackLink" '
3c160414da2e initial upload shiltemann parents: diff changeset	1876 'title="Jump back to footnote %d in the text.">'
3c160414da2e initial upload shiltemann parents: diff changeset	1877 '↩</a>' % (id, i+1))
3c160414da2e initial upload shiltemann parents: diff changeset	1878 if footer[-1].endswith("</p>"):
3c160414da2e initial upload shiltemann parents: diff changeset	1879 footer[-1] = footer[-1][:-len("</p>")] \
3c160414da2e initial upload shiltemann parents: diff changeset	1880 + ' ' + backlink + "</p>"
3c160414da2e initial upload shiltemann parents: diff changeset	1881 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1882 footer.append("\n<p>%s</p>" % backlink)
3c160414da2e initial upload shiltemann parents: diff changeset	1883 footer.append('</li>')
3c160414da2e initial upload shiltemann parents: diff changeset	1884 footer.append('</ol>')
3c160414da2e initial upload shiltemann parents: diff changeset	1885 footer.append('</div>')
3c160414da2e initial upload shiltemann parents: diff changeset	1886 return text + '\n\n' + '\n'.join(footer)
3c160414da2e initial upload shiltemann parents: diff changeset	1887 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1888 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1889
3c160414da2e initial upload shiltemann parents: diff changeset	1890 # Ampersand-encoding based entirely on Nat Irons's Amputator MT plugin:
3c160414da2e initial upload shiltemann parents: diff changeset	1891 # http://bumppo.net/projects/amputator/
3c160414da2e initial upload shiltemann parents: diff changeset	1892 _ampersand_re = re.compile(r'&(?!#?[xX]?(?:[0-9a-fA-F]+\|\w+);)')
3c160414da2e initial upload shiltemann parents: diff changeset	1893 _naked_lt_re = re.compile(r'<(?![a-z/?\$!])', re.I)
3c160414da2e initial upload shiltemann parents: diff changeset	1894 _naked_gt_re = re.compile(r'''(?<![a-z0-9?!/'"-])>''', re.I)
3c160414da2e initial upload shiltemann parents: diff changeset	1895
3c160414da2e initial upload shiltemann parents: diff changeset	1896 def _encode_amps_and_angles(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1897 # Smart processing for ampersands and angle brackets that need
3c160414da2e initial upload shiltemann parents: diff changeset	1898 # to be encoded.
3c160414da2e initial upload shiltemann parents: diff changeset	1899 text = self._ampersand_re.sub('&', text)
3c160414da2e initial upload shiltemann parents: diff changeset	1900
3c160414da2e initial upload shiltemann parents: diff changeset	1901 # Encode naked <'s
3c160414da2e initial upload shiltemann parents: diff changeset	1902 text = self._naked_lt_re.sub('<', text)
3c160414da2e initial upload shiltemann parents: diff changeset	1903
3c160414da2e initial upload shiltemann parents: diff changeset	1904 # Encode naked >'s
3c160414da2e initial upload shiltemann parents: diff changeset	1905 # Note: Other markdown implementations (e.g. Markdown.pl, PHP
3c160414da2e initial upload shiltemann parents: diff changeset	1906 # Markdown) don't do this.
3c160414da2e initial upload shiltemann parents: diff changeset	1907 text = self._naked_gt_re.sub('>', text)
3c160414da2e initial upload shiltemann parents: diff changeset	1908 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1909
3c160414da2e initial upload shiltemann parents: diff changeset	1910 def _encode_backslash_escapes(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1911 for ch, escape in list(self._escape_table.items()):
3c160414da2e initial upload shiltemann parents: diff changeset	1912 text = text.replace("\\"+ch, escape)
3c160414da2e initial upload shiltemann parents: diff changeset	1913 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1914
3c160414da2e initial upload shiltemann parents: diff changeset	1915 _auto_link_re = re.compile(r'<((https?\|ftp):[^\'">\s]+)>', re.I)
3c160414da2e initial upload shiltemann parents: diff changeset	1916 def _auto_link_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	1917 g1 = match.group(1)
3c160414da2e initial upload shiltemann parents: diff changeset	1918 return '<a href="%s">%s</a>' % (g1, g1)
3c160414da2e initial upload shiltemann parents: diff changeset	1919
3c160414da2e initial upload shiltemann parents: diff changeset	1920 _auto_email_link_re = re.compile(r"""
3c160414da2e initial upload shiltemann parents: diff changeset	1921 <
3c160414da2e initial upload shiltemann parents: diff changeset	1922 (?:mailto:)?
3c160414da2e initial upload shiltemann parents: diff changeset	1923 (
3c160414da2e initial upload shiltemann parents: diff changeset	1924 [-.\w]+
3c160414da2e initial upload shiltemann parents: diff changeset	1925 \@
3c160414da2e initial upload shiltemann parents: diff changeset	1926 [-\w]+(\.[-\w]+)*\.[a-z]+
3c160414da2e initial upload shiltemann parents: diff changeset	1927 )
3c160414da2e initial upload shiltemann parents: diff changeset	1928 >
3c160414da2e initial upload shiltemann parents: diff changeset	1929 """, re.I \| re.X \| re.U)
3c160414da2e initial upload shiltemann parents: diff changeset	1930 def _auto_email_link_sub(self, match):
3c160414da2e initial upload shiltemann parents: diff changeset	1931 return self._encode_email_address(
3c160414da2e initial upload shiltemann parents: diff changeset	1932 self._unescape_special_chars(match.group(1)))
3c160414da2e initial upload shiltemann parents: diff changeset	1933
3c160414da2e initial upload shiltemann parents: diff changeset	1934 def _do_auto_links(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1935 text = self._auto_link_re.sub(self._auto_link_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	1936 text = self._auto_email_link_re.sub(self._auto_email_link_sub, text)
3c160414da2e initial upload shiltemann parents: diff changeset	1937 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1938
3c160414da2e initial upload shiltemann parents: diff changeset	1939 def _encode_email_address(self, addr):
3c160414da2e initial upload shiltemann parents: diff changeset	1940 # Input: an email address, e.g. "foo@example.com"
3c160414da2e initial upload shiltemann parents: diff changeset	1941 #
3c160414da2e initial upload shiltemann parents: diff changeset	1942 # Output: the email address as a mailto link, with each character
3c160414da2e initial upload shiltemann parents: diff changeset	1943 # of the address encoded as either a decimal or hex entity, in
3c160414da2e initial upload shiltemann parents: diff changeset	1944 # the hopes of foiling most address harvesting spam bots. E.g.:
3c160414da2e initial upload shiltemann parents: diff changeset	1945 #
3c160414da2e initial upload shiltemann parents: diff changeset	1946 # <a href="mailto:foo@e
3c160414da2e initial upload shiltemann parents: diff changeset	1947 # xample.com">foo
3c160414da2e initial upload shiltemann parents: diff changeset	1948 # @example.com</a>
3c160414da2e initial upload shiltemann parents: diff changeset	1949 #
3c160414da2e initial upload shiltemann parents: diff changeset	1950 # Based on a filter by Matthew Wickline, posted to the BBEdit-Talk
3c160414da2e initial upload shiltemann parents: diff changeset	1951 # mailing list: <http://tinyurl.com/yu7ue>
3c160414da2e initial upload shiltemann parents: diff changeset	1952 chars = [_xml_encode_email_char_at_random(ch)
3c160414da2e initial upload shiltemann parents: diff changeset	1953 for ch in "mailto:" + addr]
3c160414da2e initial upload shiltemann parents: diff changeset	1954 # Strip the mailto: from the visible part.
3c160414da2e initial upload shiltemann parents: diff changeset	1955 addr = '<a href="%s">%s</a>' \
3c160414da2e initial upload shiltemann parents: diff changeset	1956 % (''.join(chars), ''.join(chars[7:]))
3c160414da2e initial upload shiltemann parents: diff changeset	1957 return addr
3c160414da2e initial upload shiltemann parents: diff changeset	1958
3c160414da2e initial upload shiltemann parents: diff changeset	1959 def _do_link_patterns(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1960 """Caveat emptor: there isn't much guarding against link
3c160414da2e initial upload shiltemann parents: diff changeset	1961 patterns being formed inside other standard Markdown links, e.g.
3c160414da2e initial upload shiltemann parents: diff changeset	1962 inside a [link def][like this].
3c160414da2e initial upload shiltemann parents: diff changeset	1963
3c160414da2e initial upload shiltemann parents: diff changeset	1964 Dev Notes: Could consider prefixing regexes with a negative
3c160414da2e initial upload shiltemann parents: diff changeset	1965 lookbehind assertion to attempt to guard against this.
3c160414da2e initial upload shiltemann parents: diff changeset	1966 """
3c160414da2e initial upload shiltemann parents: diff changeset	1967 link_from_hash = {}
3c160414da2e initial upload shiltemann parents: diff changeset	1968 for regex, repl in self.link_patterns:
3c160414da2e initial upload shiltemann parents: diff changeset	1969 replacements = []
3c160414da2e initial upload shiltemann parents: diff changeset	1970 for match in regex.finditer(text):
3c160414da2e initial upload shiltemann parents: diff changeset	1971 if hasattr(repl, "__call__"):
3c160414da2e initial upload shiltemann parents: diff changeset	1972 href = repl(match)
3c160414da2e initial upload shiltemann parents: diff changeset	1973 else:
3c160414da2e initial upload shiltemann parents: diff changeset	1974 href = match.expand(repl)
3c160414da2e initial upload shiltemann parents: diff changeset	1975 replacements.append((match.span(), href))
3c160414da2e initial upload shiltemann parents: diff changeset	1976 for (start, end), href in reversed(replacements):
3c160414da2e initial upload shiltemann parents: diff changeset	1977 escaped_href = (
3c160414da2e initial upload shiltemann parents: diff changeset	1978 href.replace('"', '"') # b/c of attr quote
3c160414da2e initial upload shiltemann parents: diff changeset	1979 # To avoid markdown <em> and <strong>:
3c160414da2e initial upload shiltemann parents: diff changeset	1980 .replace('', self._escape_table[''])
3c160414da2e initial upload shiltemann parents: diff changeset	1981 .replace('_', self._escape_table['_']))
3c160414da2e initial upload shiltemann parents: diff changeset	1982 link = '<a href="%s">%s</a>' % (escaped_href, text[start:end])
3c160414da2e initial upload shiltemann parents: diff changeset	1983 hash = _hash_text(link)
3c160414da2e initial upload shiltemann parents: diff changeset	1984 link_from_hash[hash] = link
3c160414da2e initial upload shiltemann parents: diff changeset	1985 text = text[:start] + hash + text[end:]
3c160414da2e initial upload shiltemann parents: diff changeset	1986 for hash, link in list(link_from_hash.items()):
3c160414da2e initial upload shiltemann parents: diff changeset	1987 text = text.replace(hash, link)
3c160414da2e initial upload shiltemann parents: diff changeset	1988 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1989
3c160414da2e initial upload shiltemann parents: diff changeset	1990 def _unescape_special_chars(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1991 # Swap back in all the special characters we've hidden.
3c160414da2e initial upload shiltemann parents: diff changeset	1992 for ch, hash in list(self._escape_table.items()):
3c160414da2e initial upload shiltemann parents: diff changeset	1993 text = text.replace(hash, ch)
3c160414da2e initial upload shiltemann parents: diff changeset	1994 return text
3c160414da2e initial upload shiltemann parents: diff changeset	1995
3c160414da2e initial upload shiltemann parents: diff changeset	1996 def _outdent(self, text):
3c160414da2e initial upload shiltemann parents: diff changeset	1997 # Remove one level of line-leading tabs or spaces
3c160414da2e initial upload shiltemann parents: diff changeset	1998 return self._outdent_re.sub('', text)
3c160414da2e initial upload shiltemann parents: diff changeset	1999
3c160414da2e initial upload shiltemann parents: diff changeset	2000
3c160414da2e initial upload shiltemann parents: diff changeset	2001 class MarkdownWithExtras(Markdown):
3c160414da2e initial upload shiltemann parents: diff changeset	2002 """A markdowner class that enables most extras:
3c160414da2e initial upload shiltemann parents: diff changeset	2003
3c160414da2e initial upload shiltemann parents: diff changeset	2004 - footnotes
3c160414da2e initial upload shiltemann parents: diff changeset	2005 - code-color (only has effect if 'pygments' Python module on path)
3c160414da2e initial upload shiltemann parents: diff changeset	2006
3c160414da2e initial upload shiltemann parents: diff changeset	2007 These are not included:
3c160414da2e initial upload shiltemann parents: diff changeset	2008 - pyshell (specific to Python-related documenting)
3c160414da2e initial upload shiltemann parents: diff changeset	2009 - code-friendly (because it disables part of the syntax)
3c160414da2e initial upload shiltemann parents: diff changeset	2010 - link-patterns (because you need to specify some actual
3c160414da2e initial upload shiltemann parents: diff changeset	2011 link-patterns anyway)
3c160414da2e initial upload shiltemann parents: diff changeset	2012 """
3c160414da2e initial upload shiltemann parents: diff changeset	2013 extras = ["footnotes", "code-color"]
3c160414da2e initial upload shiltemann parents: diff changeset	2014
3c160414da2e initial upload shiltemann parents: diff changeset	2015
3c160414da2e initial upload shiltemann parents: diff changeset	2016 #---- internal support functions
3c160414da2e initial upload shiltemann parents: diff changeset	2017
3c160414da2e initial upload shiltemann parents: diff changeset	2018 class UnicodeWithAttrs(unicode):
3c160414da2e initial upload shiltemann parents: diff changeset	2019 """A subclass of unicode used for the return value of conversion to
3c160414da2e initial upload shiltemann parents: diff changeset	2020 possibly attach some attributes. E.g. the "toc_html" attribute when
3c160414da2e initial upload shiltemann parents: diff changeset	2021 the "toc" extra is used.
3c160414da2e initial upload shiltemann parents: diff changeset	2022 """
3c160414da2e initial upload shiltemann parents: diff changeset	2023 metadata = None
3c160414da2e initial upload shiltemann parents: diff changeset	2024 _toc = None
3c160414da2e initial upload shiltemann parents: diff changeset	2025 def toc_html(self):
3c160414da2e initial upload shiltemann parents: diff changeset	2026 """Return the HTML for the current TOC.
3c160414da2e initial upload shiltemann parents: diff changeset	2027
3c160414da2e initial upload shiltemann parents: diff changeset	2028 This expects the `_toc` attribute to have been set on this instance.
3c160414da2e initial upload shiltemann parents: diff changeset	2029 """
3c160414da2e initial upload shiltemann parents: diff changeset	2030 if self._toc is None:
3c160414da2e initial upload shiltemann parents: diff changeset	2031 return None
3c160414da2e initial upload shiltemann parents: diff changeset	2032
3c160414da2e initial upload shiltemann parents: diff changeset	2033 def indent():
3c160414da2e initial upload shiltemann parents: diff changeset	2034 return ' ' * (len(h_stack) - 1)
3c160414da2e initial upload shiltemann parents: diff changeset	2035 lines = []
3c160414da2e initial upload shiltemann parents: diff changeset	2036 h_stack = [0] # stack of header-level numbers
3c160414da2e initial upload shiltemann parents: diff changeset	2037 for level, id, name in self._toc:
3c160414da2e initial upload shiltemann parents: diff changeset	2038 if level > h_stack[-1]:
3c160414da2e initial upload shiltemann parents: diff changeset	2039 lines.append("%s<ul>" % indent())
3c160414da2e initial upload shiltemann parents: diff changeset	2040 h_stack.append(level)
3c160414da2e initial upload shiltemann parents: diff changeset	2041 elif level == h_stack[-1]:
3c160414da2e initial upload shiltemann parents: diff changeset	2042 lines[-1] += "</li>"
3c160414da2e initial upload shiltemann parents: diff changeset	2043 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2044 while level < h_stack[-1]:
3c160414da2e initial upload shiltemann parents: diff changeset	2045 h_stack.pop()
3c160414da2e initial upload shiltemann parents: diff changeset	2046 if not lines[-1].endswith("</li>"):
3c160414da2e initial upload shiltemann parents: diff changeset	2047 lines[-1] += "</li>"
3c160414da2e initial upload shiltemann parents: diff changeset	2048 lines.append("%s</ul></li>" % indent())
3c160414da2e initial upload shiltemann parents: diff changeset	2049 lines.append('%s<li><a href="#%s">%s</a>' % (
3c160414da2e initial upload shiltemann parents: diff changeset	2050 indent(), id, name))
3c160414da2e initial upload shiltemann parents: diff changeset	2051 while len(h_stack) > 1:
3c160414da2e initial upload shiltemann parents: diff changeset	2052 h_stack.pop()
3c160414da2e initial upload shiltemann parents: diff changeset	2053 if not lines[-1].endswith("</li>"):
3c160414da2e initial upload shiltemann parents: diff changeset	2054 lines[-1] += "</li>"
3c160414da2e initial upload shiltemann parents: diff changeset	2055 lines.append("%s</ul>" % indent())
3c160414da2e initial upload shiltemann parents: diff changeset	2056 return '\n'.join(lines) + '\n'
3c160414da2e initial upload shiltemann parents: diff changeset	2057 toc_html = property(toc_html)
3c160414da2e initial upload shiltemann parents: diff changeset	2058
3c160414da2e initial upload shiltemann parents: diff changeset	2059 ## {{{ http://code.activestate.com/recipes/577257/ (r1)
3c160414da2e initial upload shiltemann parents: diff changeset	2060 _slugify_strip_re = re.compile(r'[^\w\s-]')
3c160414da2e initial upload shiltemann parents: diff changeset	2061 _slugify_hyphenate_re = re.compile(r'[-\s]+')
3c160414da2e initial upload shiltemann parents: diff changeset	2062 def _slugify(value):
3c160414da2e initial upload shiltemann parents: diff changeset	2063 """
3c160414da2e initial upload shiltemann parents: diff changeset	2064 Normalizes string, converts to lowercase, removes non-alpha characters,
3c160414da2e initial upload shiltemann parents: diff changeset	2065 and converts spaces to hyphens.
3c160414da2e initial upload shiltemann parents: diff changeset	2066
3c160414da2e initial upload shiltemann parents: diff changeset	2067 From Django's "django/template/defaultfilters.py".
3c160414da2e initial upload shiltemann parents: diff changeset	2068 """
3c160414da2e initial upload shiltemann parents: diff changeset	2069 import unicodedata
3c160414da2e initial upload shiltemann parents: diff changeset	2070 value = unicodedata.normalize('NFKD', value).encode('ascii', 'ignore').decode()
3c160414da2e initial upload shiltemann parents: diff changeset	2071 value = _slugify_strip_re.sub('', value).strip().lower()
3c160414da2e initial upload shiltemann parents: diff changeset	2072 return _slugify_hyphenate_re.sub('-', value)
3c160414da2e initial upload shiltemann parents: diff changeset	2073 ## end of http://code.activestate.com/recipes/577257/ }}}
3c160414da2e initial upload shiltemann parents: diff changeset	2074
3c160414da2e initial upload shiltemann parents: diff changeset	2075
3c160414da2e initial upload shiltemann parents: diff changeset	2076 # From http://aspn.activestate.com/ASPN/Cookbook/Python/Recipe/52549
3c160414da2e initial upload shiltemann parents: diff changeset	2077 def _curry(args, *kwargs):
3c160414da2e initial upload shiltemann parents: diff changeset	2078 function, args = args[0], args[1:]
3c160414da2e initial upload shiltemann parents: diff changeset	2079 def result(rest, *kwrest):
3c160414da2e initial upload shiltemann parents: diff changeset	2080 combined = kwargs.copy()
3c160414da2e initial upload shiltemann parents: diff changeset	2081 combined.update(kwrest)
3c160414da2e initial upload shiltemann parents: diff changeset	2082 return function(args + rest, *combined)
3c160414da2e initial upload shiltemann parents: diff changeset	2083 return result
3c160414da2e initial upload shiltemann parents: diff changeset	2084
3c160414da2e initial upload shiltemann parents: diff changeset	2085 # Recipe: regex_from_encoded_pattern (1.0)
3c160414da2e initial upload shiltemann parents: diff changeset	2086 def _regex_from_encoded_pattern(s):
3c160414da2e initial upload shiltemann parents: diff changeset	2087 """'foo' -> re.compile(re.escape('foo'))
3c160414da2e initial upload shiltemann parents: diff changeset	2088 '/foo/' -> re.compile('foo')
3c160414da2e initial upload shiltemann parents: diff changeset	2089 '/foo/i' -> re.compile('foo', re.I)
3c160414da2e initial upload shiltemann parents: diff changeset	2090 """
3c160414da2e initial upload shiltemann parents: diff changeset	2091 if s.startswith('/') and s.rfind('/') != 0:
3c160414da2e initial upload shiltemann parents: diff changeset	2092 # Parse it: /PATTERN/FLAGS
3c160414da2e initial upload shiltemann parents: diff changeset	2093 idx = s.rfind('/')
3c160414da2e initial upload shiltemann parents: diff changeset	2094 pattern, flags_str = s[1:idx], s[idx+1:]
3c160414da2e initial upload shiltemann parents: diff changeset	2095 flag_from_char = {
3c160414da2e initial upload shiltemann parents: diff changeset	2096 "i": re.IGNORECASE,
3c160414da2e initial upload shiltemann parents: diff changeset	2097 "l": re.LOCALE,
3c160414da2e initial upload shiltemann parents: diff changeset	2098 "s": re.DOTALL,
3c160414da2e initial upload shiltemann parents: diff changeset	2099 "m": re.MULTILINE,
3c160414da2e initial upload shiltemann parents: diff changeset	2100 "u": re.UNICODE,
3c160414da2e initial upload shiltemann parents: diff changeset	2101 }
3c160414da2e initial upload shiltemann parents: diff changeset	2102 flags = 0
3c160414da2e initial upload shiltemann parents: diff changeset	2103 for char in flags_str:
3c160414da2e initial upload shiltemann parents: diff changeset	2104 try:
3c160414da2e initial upload shiltemann parents: diff changeset	2105 flags \|= flag_from_char[char]
3c160414da2e initial upload shiltemann parents: diff changeset	2106 except KeyError:
3c160414da2e initial upload shiltemann parents: diff changeset	2107 raise ValueError("unsupported regex flag: '%s' in '%s' "
3c160414da2e initial upload shiltemann parents: diff changeset	2108 "(must be one of '%s')"
3c160414da2e initial upload shiltemann parents: diff changeset	2109 % (char, s, ''.join(list(flag_from_char.keys()))))
3c160414da2e initial upload shiltemann parents: diff changeset	2110 return re.compile(s[1:idx], flags)
3c160414da2e initial upload shiltemann parents: diff changeset	2111 else: # not an encoded regex
3c160414da2e initial upload shiltemann parents: diff changeset	2112 return re.compile(re.escape(s))
3c160414da2e initial upload shiltemann parents: diff changeset	2113
3c160414da2e initial upload shiltemann parents: diff changeset	2114 # Recipe: dedent (0.1.2)
3c160414da2e initial upload shiltemann parents: diff changeset	2115 def _dedentlines(lines, tabsize=8, skip_first_line=False):
3c160414da2e initial upload shiltemann parents: diff changeset	2116 """_dedentlines(lines, tabsize=8, skip_first_line=False) -> dedented lines
3c160414da2e initial upload shiltemann parents: diff changeset	2117
3c160414da2e initial upload shiltemann parents: diff changeset	2118 "lines" is a list of lines to dedent.
3c160414da2e initial upload shiltemann parents: diff changeset	2119 "tabsize" is the tab width to use for indent width calculations.
3c160414da2e initial upload shiltemann parents: diff changeset	2120 "skip_first_line" is a boolean indicating if the first line should
3c160414da2e initial upload shiltemann parents: diff changeset	2121 be skipped for calculating the indent width and for dedenting.
3c160414da2e initial upload shiltemann parents: diff changeset	2122 This is sometimes useful for docstrings and similar.
3c160414da2e initial upload shiltemann parents: diff changeset	2123
3c160414da2e initial upload shiltemann parents: diff changeset	2124 Same as dedent() except operates on a sequence of lines. Note: the
3c160414da2e initial upload shiltemann parents: diff changeset	2125 lines list is modified in-place.
3c160414da2e initial upload shiltemann parents: diff changeset	2126 """
3c160414da2e initial upload shiltemann parents: diff changeset	2127 DEBUG = False
3c160414da2e initial upload shiltemann parents: diff changeset	2128 if DEBUG:
3c160414da2e initial upload shiltemann parents: diff changeset	2129 print("dedent: dedent(..., tabsize=%d, skip_first_line=%r)"\
3c160414da2e initial upload shiltemann parents: diff changeset	2130 % (tabsize, skip_first_line))
3c160414da2e initial upload shiltemann parents: diff changeset	2131 indents = []
3c160414da2e initial upload shiltemann parents: diff changeset	2132 margin = None
3c160414da2e initial upload shiltemann parents: diff changeset	2133 for i, line in enumerate(lines):
3c160414da2e initial upload shiltemann parents: diff changeset	2134 if i == 0 and skip_first_line: continue
3c160414da2e initial upload shiltemann parents: diff changeset	2135 indent = 0
3c160414da2e initial upload shiltemann parents: diff changeset	2136 for ch in line:
3c160414da2e initial upload shiltemann parents: diff changeset	2137 if ch == ' ':
3c160414da2e initial upload shiltemann parents: diff changeset	2138 indent += 1
3c160414da2e initial upload shiltemann parents: diff changeset	2139 elif ch == '\t':
3c160414da2e initial upload shiltemann parents: diff changeset	2140 indent += tabsize - (indent % tabsize)
3c160414da2e initial upload shiltemann parents: diff changeset	2141 elif ch in '\r\n':
3c160414da2e initial upload shiltemann parents: diff changeset	2142 continue # skip all-whitespace lines
3c160414da2e initial upload shiltemann parents: diff changeset	2143 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2144 break
3c160414da2e initial upload shiltemann parents: diff changeset	2145 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2146 continue # skip all-whitespace lines
3c160414da2e initial upload shiltemann parents: diff changeset	2147 if DEBUG: print("dedent: indent=%d: %r" % (indent, line))
3c160414da2e initial upload shiltemann parents: diff changeset	2148 if margin is None:
3c160414da2e initial upload shiltemann parents: diff changeset	2149 margin = indent
3c160414da2e initial upload shiltemann parents: diff changeset	2150 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2151 margin = min(margin, indent)
3c160414da2e initial upload shiltemann parents: diff changeset	2152 if DEBUG: print("dedent: margin=%r" % margin)
3c160414da2e initial upload shiltemann parents: diff changeset	2153
3c160414da2e initial upload shiltemann parents: diff changeset	2154 if margin is not None and margin > 0:
3c160414da2e initial upload shiltemann parents: diff changeset	2155 for i, line in enumerate(lines):
3c160414da2e initial upload shiltemann parents: diff changeset	2156 if i == 0 and skip_first_line: continue
3c160414da2e initial upload shiltemann parents: diff changeset	2157 removed = 0
3c160414da2e initial upload shiltemann parents: diff changeset	2158 for j, ch in enumerate(line):
3c160414da2e initial upload shiltemann parents: diff changeset	2159 if ch == ' ':
3c160414da2e initial upload shiltemann parents: diff changeset	2160 removed += 1
3c160414da2e initial upload shiltemann parents: diff changeset	2161 elif ch == '\t':
3c160414da2e initial upload shiltemann parents: diff changeset	2162 removed += tabsize - (removed % tabsize)
3c160414da2e initial upload shiltemann parents: diff changeset	2163 elif ch in '\r\n':
3c160414da2e initial upload shiltemann parents: diff changeset	2164 if DEBUG: print("dedent: %r: EOL -> strip up to EOL" % line)
3c160414da2e initial upload shiltemann parents: diff changeset	2165 lines[i] = lines[i][j:]
3c160414da2e initial upload shiltemann parents: diff changeset	2166 break
3c160414da2e initial upload shiltemann parents: diff changeset	2167 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2168 raise ValueError("unexpected non-whitespace char %r in "
3c160414da2e initial upload shiltemann parents: diff changeset	2169 "line %r while removing %d-space margin"
3c160414da2e initial upload shiltemann parents: diff changeset	2170 % (ch, line, margin))
3c160414da2e initial upload shiltemann parents: diff changeset	2171 if DEBUG:
3c160414da2e initial upload shiltemann parents: diff changeset	2172 print("dedent: %r: %r -> removed %d/%d"\
3c160414da2e initial upload shiltemann parents: diff changeset	2173 % (line, ch, removed, margin))
3c160414da2e initial upload shiltemann parents: diff changeset	2174 if removed == margin:
3c160414da2e initial upload shiltemann parents: diff changeset	2175 lines[i] = lines[i][j+1:]
3c160414da2e initial upload shiltemann parents: diff changeset	2176 break
3c160414da2e initial upload shiltemann parents: diff changeset	2177 elif removed > margin:
3c160414da2e initial upload shiltemann parents: diff changeset	2178 lines[i] = ' '*(removed-margin) + lines[i][j+1:]
3c160414da2e initial upload shiltemann parents: diff changeset	2179 break
3c160414da2e initial upload shiltemann parents: diff changeset	2180 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2181 if removed:
3c160414da2e initial upload shiltemann parents: diff changeset	2182 lines[i] = lines[i][removed:]
3c160414da2e initial upload shiltemann parents: diff changeset	2183 return lines
3c160414da2e initial upload shiltemann parents: diff changeset	2184
3c160414da2e initial upload shiltemann parents: diff changeset	2185 def _dedent(text, tabsize=8, skip_first_line=False):
3c160414da2e initial upload shiltemann parents: diff changeset	2186 """_dedent(text, tabsize=8, skip_first_line=False) -> dedented text
3c160414da2e initial upload shiltemann parents: diff changeset	2187
3c160414da2e initial upload shiltemann parents: diff changeset	2188 "text" is the text to dedent.
3c160414da2e initial upload shiltemann parents: diff changeset	2189 "tabsize" is the tab width to use for indent width calculations.
3c160414da2e initial upload shiltemann parents: diff changeset	2190 "skip_first_line" is a boolean indicating if the first line should
3c160414da2e initial upload shiltemann parents: diff changeset	2191 be skipped for calculating the indent width and for dedenting.
3c160414da2e initial upload shiltemann parents: diff changeset	2192 This is sometimes useful for docstrings and similar.
3c160414da2e initial upload shiltemann parents: diff changeset	2193
3c160414da2e initial upload shiltemann parents: diff changeset	2194 textwrap.dedent(s), but don't expand tabs to spaces
3c160414da2e initial upload shiltemann parents: diff changeset	2195 """
3c160414da2e initial upload shiltemann parents: diff changeset	2196 lines = text.splitlines(1)
3c160414da2e initial upload shiltemann parents: diff changeset	2197 _dedentlines(lines, tabsize=tabsize, skip_first_line=skip_first_line)
3c160414da2e initial upload shiltemann parents: diff changeset	2198 return ''.join(lines)
3c160414da2e initial upload shiltemann parents: diff changeset	2199
3c160414da2e initial upload shiltemann parents: diff changeset	2200
3c160414da2e initial upload shiltemann parents: diff changeset	2201 class _memoized(object):
3c160414da2e initial upload shiltemann parents: diff changeset	2202 """Decorator that caches a function's return value each time it is called.
3c160414da2e initial upload shiltemann parents: diff changeset	2203 If called later with the same arguments, the cached value is returned, and
3c160414da2e initial upload shiltemann parents: diff changeset	2204 not re-evaluated.
3c160414da2e initial upload shiltemann parents: diff changeset	2205
3c160414da2e initial upload shiltemann parents: diff changeset	2206 http://wiki.python.org/moin/PythonDecoratorLibrary
3c160414da2e initial upload shiltemann parents: diff changeset	2207 """
3c160414da2e initial upload shiltemann parents: diff changeset	2208 def __init__(self, func):
3c160414da2e initial upload shiltemann parents: diff changeset	2209 self.func = func
3c160414da2e initial upload shiltemann parents: diff changeset	2210 self.cache = {}
3c160414da2e initial upload shiltemann parents: diff changeset	2211 def __call__(self, *args):
3c160414da2e initial upload shiltemann parents: diff changeset	2212 try:
3c160414da2e initial upload shiltemann parents: diff changeset	2213 return self.cache[args]
3c160414da2e initial upload shiltemann parents: diff changeset	2214 except KeyError:
3c160414da2e initial upload shiltemann parents: diff changeset	2215 self.cache[args] = value = self.func(*args)
3c160414da2e initial upload shiltemann parents: diff changeset	2216 return value
3c160414da2e initial upload shiltemann parents: diff changeset	2217 except TypeError:
3c160414da2e initial upload shiltemann parents: diff changeset	2218 # uncachable -- for instance, passing a list as an argument.
3c160414da2e initial upload shiltemann parents: diff changeset	2219 # Better to not cache than to blow up entirely.
3c160414da2e initial upload shiltemann parents: diff changeset	2220 return self.func(*args)
3c160414da2e initial upload shiltemann parents: diff changeset	2221 def __repr__(self):
3c160414da2e initial upload shiltemann parents: diff changeset	2222 """Return the function's docstring."""
3c160414da2e initial upload shiltemann parents: diff changeset	2223 return self.func.__doc__
3c160414da2e initial upload shiltemann parents: diff changeset	2224
3c160414da2e initial upload shiltemann parents: diff changeset	2225
3c160414da2e initial upload shiltemann parents: diff changeset	2226 def _xml_oneliner_re_from_tab_width(tab_width):
3c160414da2e initial upload shiltemann parents: diff changeset	2227 """Standalone XML processing instruction regex."""
3c160414da2e initial upload shiltemann parents: diff changeset	2228 return re.compile(r"""
3c160414da2e initial upload shiltemann parents: diff changeset	2229 (?:
3c160414da2e initial upload shiltemann parents: diff changeset	2230 (?<=\n\n) # Starting after a blank line
3c160414da2e initial upload shiltemann parents: diff changeset	2231 \| # or
3c160414da2e initial upload shiltemann parents: diff changeset	2232 \A\n? # the beginning of the doc
3c160414da2e initial upload shiltemann parents: diff changeset	2233 )
3c160414da2e initial upload shiltemann parents: diff changeset	2234 ( # save in $1
3c160414da2e initial upload shiltemann parents: diff changeset	2235 [ ]{0,%d}
3c160414da2e initial upload shiltemann parents: diff changeset	2236 (?:
3c160414da2e initial upload shiltemann parents: diff changeset	2237 <\?\w+\b\s+.*?\?> # XML processing instruction
3c160414da2e initial upload shiltemann parents: diff changeset	2238 \|
3c160414da2e initial upload shiltemann parents: diff changeset	2239 <\w+:\w+\b\s+.*?/> # namespaced single tag
3c160414da2e initial upload shiltemann parents: diff changeset	2240 )
3c160414da2e initial upload shiltemann parents: diff changeset	2241 [ \t]*
3c160414da2e initial upload shiltemann parents: diff changeset	2242 (?=\n{2,}\|\Z) # followed by a blank line or end of document
3c160414da2e initial upload shiltemann parents: diff changeset	2243 )
3c160414da2e initial upload shiltemann parents: diff changeset	2244 """ % (tab_width - 1), re.X)
3c160414da2e initial upload shiltemann parents: diff changeset	2245 _xml_oneliner_re_from_tab_width = _memoized(_xml_oneliner_re_from_tab_width)
3c160414da2e initial upload shiltemann parents: diff changeset	2246
3c160414da2e initial upload shiltemann parents: diff changeset	2247 def _hr_tag_re_from_tab_width(tab_width):
3c160414da2e initial upload shiltemann parents: diff changeset	2248 return re.compile(r"""
3c160414da2e initial upload shiltemann parents: diff changeset	2249 (?:
3c160414da2e initial upload shiltemann parents: diff changeset	2250 (?<=\n\n) # Starting after a blank line
3c160414da2e initial upload shiltemann parents: diff changeset	2251 \| # or
3c160414da2e initial upload shiltemann parents: diff changeset	2252 \A\n? # the beginning of the doc
3c160414da2e initial upload shiltemann parents: diff changeset	2253 )
3c160414da2e initial upload shiltemann parents: diff changeset	2254 ( # save in \1
3c160414da2e initial upload shiltemann parents: diff changeset	2255 [ ]{0,%d}
3c160414da2e initial upload shiltemann parents: diff changeset	2256 <(hr) # start tag = \2
3c160414da2e initial upload shiltemann parents: diff changeset	2257 \b # word break
3c160414da2e initial upload shiltemann parents: diff changeset	2258 ([^<>])*? #
3c160414da2e initial upload shiltemann parents: diff changeset	2259 /?> # the matching end tag
3c160414da2e initial upload shiltemann parents: diff changeset	2260 [ \t]*
3c160414da2e initial upload shiltemann parents: diff changeset	2261 (?=\n{2,}\|\Z) # followed by a blank line or end of document
3c160414da2e initial upload shiltemann parents: diff changeset	2262 )
3c160414da2e initial upload shiltemann parents: diff changeset	2263 """ % (tab_width - 1), re.X)
3c160414da2e initial upload shiltemann parents: diff changeset	2264 _hr_tag_re_from_tab_width = _memoized(_hr_tag_re_from_tab_width)
3c160414da2e initial upload shiltemann parents: diff changeset	2265
3c160414da2e initial upload shiltemann parents: diff changeset	2266
3c160414da2e initial upload shiltemann parents: diff changeset	2267 def _xml_escape_attr(attr, skip_single_quote=True):
3c160414da2e initial upload shiltemann parents: diff changeset	2268 """Escape the given string for use in an HTML/XML tag attribute.
3c160414da2e initial upload shiltemann parents: diff changeset	2269
3c160414da2e initial upload shiltemann parents: diff changeset	2270 By default this doesn't bother with escaping `'` to `'`, presuming that
3c160414da2e initial upload shiltemann parents: diff changeset	2271 the tag attribute is surrounded by double quotes.
3c160414da2e initial upload shiltemann parents: diff changeset	2272 """
3c160414da2e initial upload shiltemann parents: diff changeset	2273 escaped = (attr
3c160414da2e initial upload shiltemann parents: diff changeset	2274 .replace('&', '&')
3c160414da2e initial upload shiltemann parents: diff changeset	2275 .replace('"', '"')
3c160414da2e initial upload shiltemann parents: diff changeset	2276 .replace('<', '<')
3c160414da2e initial upload shiltemann parents: diff changeset	2277 .replace('>', '>'))
3c160414da2e initial upload shiltemann parents: diff changeset	2278 if not skip_single_quote:
3c160414da2e initial upload shiltemann parents: diff changeset	2279 escaped = escaped.replace("'", "'")
3c160414da2e initial upload shiltemann parents: diff changeset	2280 return escaped
3c160414da2e initial upload shiltemann parents: diff changeset	2281
3c160414da2e initial upload shiltemann parents: diff changeset	2282
3c160414da2e initial upload shiltemann parents: diff changeset	2283 def _xml_encode_email_char_at_random(ch):
3c160414da2e initial upload shiltemann parents: diff changeset	2284 r = random()
3c160414da2e initial upload shiltemann parents: diff changeset	2285 # Roughly 10% raw, 45% hex, 45% dec.
3c160414da2e initial upload shiltemann parents: diff changeset	2286 # '@' must be encoded. I [John Gruber] insist.
3c160414da2e initial upload shiltemann parents: diff changeset	2287 # Issue 26: '_' must be encoded.
3c160414da2e initial upload shiltemann parents: diff changeset	2288 if r > 0.9 and ch not in "@_":
3c160414da2e initial upload shiltemann parents: diff changeset	2289 return ch
3c160414da2e initial upload shiltemann parents: diff changeset	2290 elif r < 0.45:
3c160414da2e initial upload shiltemann parents: diff changeset	2291 # The [1:] is to drop leading '0': 0x63 -> x63
3c160414da2e initial upload shiltemann parents: diff changeset	2292 return '&#%s;' % hex(ord(ch))[1:]
3c160414da2e initial upload shiltemann parents: diff changeset	2293 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2294 return '&#%s;' % ord(ch)
3c160414da2e initial upload shiltemann parents: diff changeset	2295
3c160414da2e initial upload shiltemann parents: diff changeset	2296
3c160414da2e initial upload shiltemann parents: diff changeset	2297
3c160414da2e initial upload shiltemann parents: diff changeset	2298 #---- mainline
3c160414da2e initial upload shiltemann parents: diff changeset	2299
3c160414da2e initial upload shiltemann parents: diff changeset	2300 class _NoReflowFormatter(optparse.IndentedHelpFormatter):
3c160414da2e initial upload shiltemann parents: diff changeset	2301 """An optparse formatter that does NOT reflow the description."""
3c160414da2e initial upload shiltemann parents: diff changeset	2302 def format_description(self, description):
3c160414da2e initial upload shiltemann parents: diff changeset	2303 return description or ""
3c160414da2e initial upload shiltemann parents: diff changeset	2304
3c160414da2e initial upload shiltemann parents: diff changeset	2305 def _test():
3c160414da2e initial upload shiltemann parents: diff changeset	2306 import doctest
3c160414da2e initial upload shiltemann parents: diff changeset	2307 doctest.testmod()
3c160414da2e initial upload shiltemann parents: diff changeset	2308
3c160414da2e initial upload shiltemann parents: diff changeset	2309 def main(argv=None):
3c160414da2e initial upload shiltemann parents: diff changeset	2310 if argv is None:
3c160414da2e initial upload shiltemann parents: diff changeset	2311 argv = sys.argv
3c160414da2e initial upload shiltemann parents: diff changeset	2312 if not logging.root.handlers:
3c160414da2e initial upload shiltemann parents: diff changeset	2313 logging.basicConfig()
3c160414da2e initial upload shiltemann parents: diff changeset	2314
3c160414da2e initial upload shiltemann parents: diff changeset	2315 usage = "usage: %prog [PATHS...]"
3c160414da2e initial upload shiltemann parents: diff changeset	2316 version = "%prog "+__version__
3c160414da2e initial upload shiltemann parents: diff changeset	2317 parser = optparse.OptionParser(prog="markdown2", usage=usage,
3c160414da2e initial upload shiltemann parents: diff changeset	2318 version=version, description=cmdln_desc,
3c160414da2e initial upload shiltemann parents: diff changeset	2319 formatter=_NoReflowFormatter())
3c160414da2e initial upload shiltemann parents: diff changeset	2320 parser.add_option("-v", "--verbose", dest="log_level",
3c160414da2e initial upload shiltemann parents: diff changeset	2321 action="store_const", const=logging.DEBUG,
3c160414da2e initial upload shiltemann parents: diff changeset	2322 help="more verbose output")
3c160414da2e initial upload shiltemann parents: diff changeset	2323 parser.add_option("--encoding",
3c160414da2e initial upload shiltemann parents: diff changeset	2324 help="specify encoding of text content")
3c160414da2e initial upload shiltemann parents: diff changeset	2325 parser.add_option("--html4tags", action="store_true", default=False,
3c160414da2e initial upload shiltemann parents: diff changeset	2326 help="use HTML 4 style for empty element tags")
3c160414da2e initial upload shiltemann parents: diff changeset	2327 parser.add_option("-s", "--safe", metavar="MODE", dest="safe_mode",
3c160414da2e initial upload shiltemann parents: diff changeset	2328 help="sanitize literal HTML: 'escape' escapes "
3c160414da2e initial upload shiltemann parents: diff changeset	2329 "HTML meta chars, 'replace' replaces with an "
3c160414da2e initial upload shiltemann parents: diff changeset	2330 "[HTML_REMOVED] note")
3c160414da2e initial upload shiltemann parents: diff changeset	2331 parser.add_option("-x", "--extras", action="append",
3c160414da2e initial upload shiltemann parents: diff changeset	2332 help="Turn on specific extra features (not part of "
3c160414da2e initial upload shiltemann parents: diff changeset	2333 "the core Markdown spec). See above.")
3c160414da2e initial upload shiltemann parents: diff changeset	2334 parser.add_option("--use-file-vars",
3c160414da2e initial upload shiltemann parents: diff changeset	2335 help="Look for and use Emacs-style 'markdown-extras' "
3c160414da2e initial upload shiltemann parents: diff changeset	2336 "file var to turn on extras. See "
3c160414da2e initial upload shiltemann parents: diff changeset	2337 "<https://github.com/trentm/python-markdown2/wiki/Extras>")
3c160414da2e initial upload shiltemann parents: diff changeset	2338 parser.add_option("--link-patterns-file",
3c160414da2e initial upload shiltemann parents: diff changeset	2339 help="path to a link pattern file")
3c160414da2e initial upload shiltemann parents: diff changeset	2340 parser.add_option("--self-test", action="store_true",
3c160414da2e initial upload shiltemann parents: diff changeset	2341 help="run internal self-tests (some doctests)")
3c160414da2e initial upload shiltemann parents: diff changeset	2342 parser.add_option("--compare", action="store_true",
3c160414da2e initial upload shiltemann parents: diff changeset	2343 help="run against Markdown.pl as well (for testing)")
3c160414da2e initial upload shiltemann parents: diff changeset	2344 parser.set_defaults(log_level=logging.INFO, compare=False,
3c160414da2e initial upload shiltemann parents: diff changeset	2345 encoding="utf-8", safe_mode=None, use_file_vars=False)
3c160414da2e initial upload shiltemann parents: diff changeset	2346 opts, paths = parser.parse_args()
3c160414da2e initial upload shiltemann parents: diff changeset	2347 log.setLevel(opts.log_level)
3c160414da2e initial upload shiltemann parents: diff changeset	2348
3c160414da2e initial upload shiltemann parents: diff changeset	2349 if opts.self_test:
3c160414da2e initial upload shiltemann parents: diff changeset	2350 return _test()
3c160414da2e initial upload shiltemann parents: diff changeset	2351
3c160414da2e initial upload shiltemann parents: diff changeset	2352 if opts.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	2353 extras = {}
3c160414da2e initial upload shiltemann parents: diff changeset	2354 for s in opts.extras:
3c160414da2e initial upload shiltemann parents: diff changeset	2355 splitter = re.compile("[,;: ]+")
3c160414da2e initial upload shiltemann parents: diff changeset	2356 for e in splitter.split(s):
3c160414da2e initial upload shiltemann parents: diff changeset	2357 if '=' in e:
3c160414da2e initial upload shiltemann parents: diff changeset	2358 ename, earg = e.split('=', 1)
3c160414da2e initial upload shiltemann parents: diff changeset	2359 try:
3c160414da2e initial upload shiltemann parents: diff changeset	2360 earg = int(earg)
3c160414da2e initial upload shiltemann parents: diff changeset	2361 except ValueError:
3c160414da2e initial upload shiltemann parents: diff changeset	2362 pass
3c160414da2e initial upload shiltemann parents: diff changeset	2363 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2364 ename, earg = e, None
3c160414da2e initial upload shiltemann parents: diff changeset	2365 extras[ename] = earg
3c160414da2e initial upload shiltemann parents: diff changeset	2366 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2367 extras = None
3c160414da2e initial upload shiltemann parents: diff changeset	2368
3c160414da2e initial upload shiltemann parents: diff changeset	2369 if opts.link_patterns_file:
3c160414da2e initial upload shiltemann parents: diff changeset	2370 link_patterns = []
3c160414da2e initial upload shiltemann parents: diff changeset	2371 f = open(opts.link_patterns_file)
3c160414da2e initial upload shiltemann parents: diff changeset	2372 try:
3c160414da2e initial upload shiltemann parents: diff changeset	2373 for i, line in enumerate(f.readlines()):
3c160414da2e initial upload shiltemann parents: diff changeset	2374 if not line.strip(): continue
3c160414da2e initial upload shiltemann parents: diff changeset	2375 if line.lstrip().startswith("#"): continue
3c160414da2e initial upload shiltemann parents: diff changeset	2376 try:
3c160414da2e initial upload shiltemann parents: diff changeset	2377 pat, href = line.rstrip().rsplit(None, 1)
3c160414da2e initial upload shiltemann parents: diff changeset	2378 except ValueError:
3c160414da2e initial upload shiltemann parents: diff changeset	2379 raise MarkdownError("%s:%d: invalid link pattern line: %r"
3c160414da2e initial upload shiltemann parents: diff changeset	2380 % (opts.link_patterns_file, i+1, line))
3c160414da2e initial upload shiltemann parents: diff changeset	2381 link_patterns.append(
3c160414da2e initial upload shiltemann parents: diff changeset	2382 (_regex_from_encoded_pattern(pat), href))
3c160414da2e initial upload shiltemann parents: diff changeset	2383 finally:
3c160414da2e initial upload shiltemann parents: diff changeset	2384 f.close()
3c160414da2e initial upload shiltemann parents: diff changeset	2385 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2386 link_patterns = None
3c160414da2e initial upload shiltemann parents: diff changeset	2387
3c160414da2e initial upload shiltemann parents: diff changeset	2388 from os.path import join, dirname, abspath, exists
3c160414da2e initial upload shiltemann parents: diff changeset	2389 markdown_pl = join(dirname(dirname(abspath(__file__))), "test",
3c160414da2e initial upload shiltemann parents: diff changeset	2390 "Markdown.pl")
3c160414da2e initial upload shiltemann parents: diff changeset	2391 if not paths:
3c160414da2e initial upload shiltemann parents: diff changeset	2392 paths = ['-']
3c160414da2e initial upload shiltemann parents: diff changeset	2393 for path in paths:
3c160414da2e initial upload shiltemann parents: diff changeset	2394 if path == '-':
3c160414da2e initial upload shiltemann parents: diff changeset	2395 text = sys.stdin.read()
3c160414da2e initial upload shiltemann parents: diff changeset	2396 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2397 fp = codecs.open(path, 'r', opts.encoding)
3c160414da2e initial upload shiltemann parents: diff changeset	2398 text = fp.read()
3c160414da2e initial upload shiltemann parents: diff changeset	2399 fp.close()
3c160414da2e initial upload shiltemann parents: diff changeset	2400 if opts.compare:
3c160414da2e initial upload shiltemann parents: diff changeset	2401 from subprocess import Popen, PIPE
3c160414da2e initial upload shiltemann parents: diff changeset	2402 print("==== Markdown.pl ====")
3c160414da2e initial upload shiltemann parents: diff changeset	2403 p = Popen('perl %s' % markdown_pl, shell=True, stdin=PIPE, stdout=PIPE, close_fds=True)
3c160414da2e initial upload shiltemann parents: diff changeset	2404 p.stdin.write(text.encode('utf-8'))
3c160414da2e initial upload shiltemann parents: diff changeset	2405 p.stdin.close()
3c160414da2e initial upload shiltemann parents: diff changeset	2406 perl_html = p.stdout.read().decode('utf-8')
3c160414da2e initial upload shiltemann parents: diff changeset	2407 if py3:
3c160414da2e initial upload shiltemann parents: diff changeset	2408 sys.stdout.write(perl_html)
3c160414da2e initial upload shiltemann parents: diff changeset	2409 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2410 sys.stdout.write(perl_html.encode(
3c160414da2e initial upload shiltemann parents: diff changeset	2411 sys.stdout.encoding or "utf-8", 'xmlcharrefreplace'))
3c160414da2e initial upload shiltemann parents: diff changeset	2412 print("==== markdown2.py ====")
3c160414da2e initial upload shiltemann parents: diff changeset	2413 html = markdown(text,
3c160414da2e initial upload shiltemann parents: diff changeset	2414 html4tags=opts.html4tags,
3c160414da2e initial upload shiltemann parents: diff changeset	2415 safe_mode=opts.safe_mode,
3c160414da2e initial upload shiltemann parents: diff changeset	2416 extras=extras, link_patterns=link_patterns,
3c160414da2e initial upload shiltemann parents: diff changeset	2417 use_file_vars=opts.use_file_vars)
3c160414da2e initial upload shiltemann parents: diff changeset	2418 if py3:
3c160414da2e initial upload shiltemann parents: diff changeset	2419 sys.stdout.write(html)
3c160414da2e initial upload shiltemann parents: diff changeset	2420 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2421 sys.stdout.write(html.encode(
3c160414da2e initial upload shiltemann parents: diff changeset	2422 sys.stdout.encoding or "utf-8", 'xmlcharrefreplace'))
3c160414da2e initial upload shiltemann parents: diff changeset	2423 if extras and "toc" in extras:
3c160414da2e initial upload shiltemann parents: diff changeset	2424 log.debug("toc_html: " +
3c160414da2e initial upload shiltemann parents: diff changeset	2425 html.toc_html.encode(sys.stdout.encoding or "utf-8", 'xmlcharrefreplace'))
3c160414da2e initial upload shiltemann parents: diff changeset	2426 if opts.compare:
3c160414da2e initial upload shiltemann parents: diff changeset	2427 test_dir = join(dirname(dirname(abspath(__file__))), "test")
3c160414da2e initial upload shiltemann parents: diff changeset	2428 if exists(join(test_dir, "test_markdown2.py")):
3c160414da2e initial upload shiltemann parents: diff changeset	2429 sys.path.insert(0, test_dir)
3c160414da2e initial upload shiltemann parents: diff changeset	2430 from test_markdown2 import norm_html_from_html
3c160414da2e initial upload shiltemann parents: diff changeset	2431 norm_html = norm_html_from_html(html)
3c160414da2e initial upload shiltemann parents: diff changeset	2432 norm_perl_html = norm_html_from_html(perl_html)
3c160414da2e initial upload shiltemann parents: diff changeset	2433 else:
3c160414da2e initial upload shiltemann parents: diff changeset	2434 norm_html = html
3c160414da2e initial upload shiltemann parents: diff changeset	2435 norm_perl_html = perl_html
3c160414da2e initial upload shiltemann parents: diff changeset	2436 print("==== match? %r ====" % (norm_perl_html == norm_html))
3c160414da2e initial upload shiltemann parents: diff changeset	2437
3c160414da2e initial upload shiltemann parents: diff changeset	2438
3c160414da2e initial upload shiltemann parents: diff changeset	2439 if __name__ == "__main__":
3c160414da2e initial upload shiltemann parents: diff changeset	2440 sys.exit( main(sys.argv) )

Mercurial > repos > saskia-hiltemann > ireport_devel

annotate Markdown/markdown2.py @ 4:363cd315d0e9 draft