<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/" version="2.0">
  <channel>
    <title>topic Re: Hey I was wondering about this function problem for a while in Python Questions</title>
    <link>https://community.esri.com/t5/python-questions/hey-i-was-wondering-about-this-function-problem/m-p/443428#M34734</link>
    <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;I don't think this has much to do with ArcGIS...&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;You can find more on this topic on stackoverflow:&lt;/SPAN&gt;&lt;BR /&gt;&lt;A href="http://stackoverflow.com/questions/19887466/program-done-but-not-running-correctly" rel="nofollow noopener noreferrer" target="_blank"&gt;http://stackoverflow.com/questions/19887466/program-done-but-not-running-correctly&lt;/A&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;To make the code work you should apply some changes:&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;PRE class="lia-code-sample line-numbers language-none"&gt;import os.path, math

def main():

&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_filename = r'C:\Project\_Forums\compareSignatures\in\infile.txt'
&amp;nbsp;&amp;nbsp;&amp;nbsp; folder = r'C:\Project\_Forums\compareSignatures\signatures'
&amp;nbsp;&amp;nbsp;&amp;nbsp; # folder = r'C:\Project\_Forums\compareSignatures\comp'

&amp;nbsp;&amp;nbsp;&amp;nbsp; infile = open(mystery_filename, 'r')
&amp;nbsp;&amp;nbsp;&amp;nbsp; text = infile.read()
&amp;nbsp;&amp;nbsp;&amp;nbsp; infile.close()

&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_signature = [mystery_filename]
&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_signature.append(average_word_length(text))
&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_signature.append(type_token_ratio(text))
&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_signature.append(hapax_legomana_ratio(text))
&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_signature.append(average_sentence_length(text))
&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_signature.append(avg_sentence_complexity(text))

&amp;nbsp;&amp;nbsp;&amp;nbsp; weights = [0, 11, 33, 50, 0.4, 4]

&amp;nbsp;&amp;nbsp;&amp;nbsp; print "mystery_signature={0}".format(mystery_signature)

&amp;nbsp;&amp;nbsp;&amp;nbsp; # every file in this directory must be a linguistic signature
&amp;nbsp;&amp;nbsp;&amp;nbsp; files=os.listdir(folder)

##&amp;nbsp;&amp;nbsp;&amp;nbsp; # create some signature files
##&amp;nbsp;&amp;nbsp;&amp;nbsp; for this_file in files:
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; compfilename = os.path.join(folder, this_file)
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; compfile = open(compfilename, 'r')
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; text = compfile.read()
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; compfile.close()
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature = [compfilename]
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature.append(average_word_length(text))
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature.append(type_token_ratio(text))
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature.append(hapax_legomana_ratio(text))
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature.append(average_sentence_length(text))
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature.append(avg_sentence_complexity(text))
##
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; print ""
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; for row in signature:
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; print row


&amp;nbsp;&amp;nbsp;&amp;nbsp; this_file = files[0]
&amp;nbsp;&amp;nbsp;&amp;nbsp; signature = read_signature(os.path.join(folder,this_file))
&amp;nbsp;&amp;nbsp;&amp;nbsp; best_score = compare_signatures(mystery_signature, signature, weights)
&amp;nbsp;&amp;nbsp;&amp;nbsp; best_author = signature[0]
&amp;nbsp;&amp;nbsp;&amp;nbsp; for this_file in files[1:]:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature = read_signature(os.path.join(folder,this_file))
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; score = compare_signatures(mystery_signature, signature, weights)
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if score &amp;lt; best_score:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; best_score = score
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; best_author = signature[0]
&amp;nbsp;&amp;nbsp;&amp;nbsp; print( "best author match: {} with score {}".format(best_author, best_score))



def clean_up(s):
&amp;nbsp;&amp;nbsp;&amp;nbsp; ''' Return a version of string str in which all letters have been
&amp;nbsp;&amp;nbsp;&amp;nbsp; converted to lowercase and punctuation characters have been stripped
&amp;nbsp;&amp;nbsp;&amp;nbsp; from both ends. Inner punctuation is left untouched. '''

&amp;nbsp;&amp;nbsp;&amp;nbsp; punctuation = '''!"',;:.-?)([]&amp;lt;&amp;gt;*#\n\t\r'''
&amp;nbsp;&amp;nbsp;&amp;nbsp; result = s.lower().strip(punctuation)
&amp;nbsp;&amp;nbsp;&amp;nbsp; return result


def average_word_length(text):
&amp;nbsp;&amp;nbsp;&amp;nbsp; ''' Return the average length of all words in text. Do not
&amp;nbsp;&amp;nbsp;&amp;nbsp; include surrounding punctuation in words.
&amp;nbsp;&amp;nbsp;&amp;nbsp; text is a non-empty list of strings each ending in \n.
&amp;nbsp;&amp;nbsp;&amp;nbsp; At least one line in text contains a word.'''

&amp;nbsp;&amp;nbsp;&amp;nbsp; words = text.split()
&amp;nbsp;&amp;nbsp;&amp;nbsp; for word in words:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; average=sum(float(len(word)) for word in words)/float(len(words))
&amp;nbsp;&amp;nbsp;&amp;nbsp; return average


def type_token_ratio(text):
&amp;nbsp;&amp;nbsp;&amp;nbsp; ''' Return the type token ratio (TTR) for this text.
&amp;nbsp;&amp;nbsp;&amp;nbsp; TTR is the number of different words divided by the total number of words.
&amp;nbsp;&amp;nbsp;&amp;nbsp; text is a non-empty list of strings each ending in \n.
&amp;nbsp;&amp;nbsp;&amp;nbsp; At least one line in text contains a word. '''
&amp;nbsp;&amp;nbsp;&amp;nbsp; uniquewords = {}
&amp;nbsp;&amp;nbsp;&amp;nbsp; words=0
&amp;nbsp;&amp;nbsp;&amp;nbsp; for line in text.splitlines():
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; line=line.strip().split()
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; for word in line:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; words+=1
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if word in uniquewords:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; uniquewords[word]+=1
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; else:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; uniquewords[word]=1
&amp;nbsp;&amp;nbsp;&amp;nbsp; TTR = float(len(uniquewords))/float(words)
&amp;nbsp;&amp;nbsp;&amp;nbsp; return TTR


def hapax_legomana_ratio(text):
&amp;nbsp;&amp;nbsp;&amp;nbsp; ''' Return the hapax_legomana ratio for this text.
&amp;nbsp;&amp;nbsp;&amp;nbsp; This ratio is the number of words that occur exactly once divided
&amp;nbsp;&amp;nbsp;&amp;nbsp; by the total number of words.
&amp;nbsp;&amp;nbsp;&amp;nbsp; text is a list of strings each ending in \n.
&amp;nbsp;&amp;nbsp;&amp;nbsp; At least one line in text contains a word.'''

&amp;nbsp;&amp;nbsp;&amp;nbsp; uniquewords = dict()
&amp;nbsp;&amp;nbsp;&amp;nbsp; words = 0
&amp;nbsp;&amp;nbsp;&amp;nbsp; for line in text.splitlines():
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; line = line.strip().split()
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; for word in line:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; words += 1
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; word = word.replace(',', '').strip()
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if word in uniquewords:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; uniquewords[word] -= 1
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; else:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; uniquewords[word] = 1

&amp;nbsp;&amp;nbsp;&amp;nbsp; unique_count = 0
&amp;nbsp;&amp;nbsp;&amp;nbsp; for each in uniquewords:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if uniquewords[each] == 1:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; unique_count += 1
&amp;nbsp;&amp;nbsp;&amp;nbsp; HLR = float(unique_count)/float(words)
&amp;nbsp;&amp;nbsp;&amp;nbsp; return HLR


def split_on_separators(original, separators):
&amp;nbsp;&amp;nbsp;&amp;nbsp; ''' Return a list of non-empty, non-blank strings from the original string
&amp;nbsp;&amp;nbsp;&amp;nbsp; determined by splitting the string on any of the separators.
&amp;nbsp;&amp;nbsp;&amp;nbsp; separators is a string of single-character separators.'''


&amp;nbsp;&amp;nbsp;&amp;nbsp; result = []
&amp;nbsp;&amp;nbsp;&amp;nbsp; newstring=''

&amp;nbsp;&amp;nbsp;&amp;nbsp; for char in original:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if char in separators:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; result.append(newstring)
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; newstring=''
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if '' in result:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; result.remove('')
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; else:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; newstring+=char
&amp;nbsp;&amp;nbsp;&amp;nbsp; return result

def average_sentence_length(text):
&amp;nbsp;&amp;nbsp;&amp;nbsp; ''' Return the average number of words per sentence in text.
&amp;nbsp;&amp;nbsp;&amp;nbsp; text is guaranteed to have at least one sentence.
&amp;nbsp;&amp;nbsp;&amp;nbsp; Terminating punctuation defined as !?.
&amp;nbsp;&amp;nbsp;&amp;nbsp; A sentence is defined as a non-empty string of non-terminating
&amp;nbsp;&amp;nbsp;&amp;nbsp; punctuation surrounded by terminating punctuation
&amp;nbsp;&amp;nbsp;&amp;nbsp; or beginning or end of file. '''
&amp;nbsp;&amp;nbsp;&amp;nbsp; words=0
&amp;nbsp;&amp;nbsp;&amp;nbsp; Sentences=0
&amp;nbsp;&amp;nbsp;&amp;nbsp; for line in text.split():
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; words+=1
&amp;nbsp;&amp;nbsp;&amp;nbsp; sentence=split_on_separators(text,'?!.')
&amp;nbsp;&amp;nbsp;&amp;nbsp; for sep in sentence:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; Sentences+=1

&amp;nbsp;&amp;nbsp;&amp;nbsp; ASL = float(words) / float(Sentences)
&amp;nbsp;&amp;nbsp;&amp;nbsp; return ASL


def avg_sentence_complexity(text):
&amp;nbsp;&amp;nbsp;&amp;nbsp; '''Return the average number of phrases per sentence.
&amp;nbsp;&amp;nbsp;&amp;nbsp; Terminating punctuation defined as !?.
&amp;nbsp;&amp;nbsp;&amp;nbsp; A sentence is defined as a non-empty string of non-terminating
&amp;nbsp;&amp;nbsp;&amp;nbsp; punctuation surrounded by terminating punctuation
&amp;nbsp;&amp;nbsp;&amp;nbsp; or beginning or end of file.
&amp;nbsp;&amp;nbsp;&amp;nbsp; Phrases are substrings of a sentences separated by
&amp;nbsp;&amp;nbsp;&amp;nbsp; one or more of the following delimiters ,;: '''
&amp;nbsp;&amp;nbsp;&amp;nbsp; Sentences=0
&amp;nbsp;&amp;nbsp;&amp;nbsp; Phrases=0
&amp;nbsp;&amp;nbsp;&amp;nbsp; sentence=split_on_separators(text,'?!.')
&amp;nbsp;&amp;nbsp;&amp;nbsp; for sep in sentence:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; Sentences+=1
&amp;nbsp;&amp;nbsp;&amp;nbsp; Phrase=split_on_separators(text, ',;:')
&amp;nbsp;&amp;nbsp;&amp;nbsp; for n in Phrase:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; Phrases+=1
&amp;nbsp;&amp;nbsp;&amp;nbsp; ASC = float(Phrases) / float(Sentences)
&amp;nbsp;&amp;nbsp;&amp;nbsp; return ASC



def compare_signatures(sig1, sig2, weight):
&amp;nbsp;&amp;nbsp;&amp;nbsp; '''Return a non-negative real number indicating the similarity of two
&amp;nbsp;&amp;nbsp;&amp;nbsp; linguistic signatures. The smaller the number the more similar the
&amp;nbsp;&amp;nbsp;&amp;nbsp; signatures. Zero indicates identical signatures.
&amp;nbsp;&amp;nbsp;&amp;nbsp; sig1 and sig2 are 6 element lists with the following elements
&amp;nbsp;&amp;nbsp;&amp;nbsp; 0&amp;nbsp; : author name (a string)
&amp;nbsp;&amp;nbsp;&amp;nbsp; 1&amp;nbsp; : average word length (float)
&amp;nbsp;&amp;nbsp;&amp;nbsp; 2&amp;nbsp; : TTR (float)
&amp;nbsp;&amp;nbsp;&amp;nbsp; 3&amp;nbsp; : Hapax Legomana Ratio (float)
&amp;nbsp;&amp;nbsp;&amp;nbsp; 4&amp;nbsp; : average sentence length (float)
&amp;nbsp;&amp;nbsp;&amp;nbsp; 5&amp;nbsp; : average sentence complexity (float)
&amp;nbsp;&amp;nbsp;&amp;nbsp; weight is a list of multiplicative weights to apply to each
&amp;nbsp;&amp;nbsp;&amp;nbsp; linguistic feature. weight[0] is ignored.
&amp;nbsp;&amp;nbsp;&amp;nbsp; '''
&amp;nbsp;&amp;nbsp;&amp;nbsp; result = 0
&amp;nbsp;&amp;nbsp;&amp;nbsp; i=1
&amp;nbsp;&amp;nbsp;&amp;nbsp; while i &amp;lt;=5:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; result +=(abs(sig1&lt;I&gt;-sig2&lt;I&gt;))*weight&lt;I&gt;
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; i+=1
&amp;nbsp;&amp;nbsp;&amp;nbsp; return&amp;nbsp; result


def read_signature(filename):
&amp;nbsp;&amp;nbsp;&amp;nbsp; '''Read a linguistic signature from filename and return it as
&amp;nbsp;&amp;nbsp;&amp;nbsp; list of features. '''

&amp;nbsp;&amp;nbsp;&amp;nbsp; cmpfile = open(filename, 'r')
&amp;nbsp;&amp;nbsp;&amp;nbsp; # the first feature is a string so it doesn't need casting to float
&amp;nbsp;&amp;nbsp;&amp;nbsp; result = [cmpfile.readline()]
&amp;nbsp;&amp;nbsp;&amp;nbsp; # all remaining features are real numbers
&amp;nbsp;&amp;nbsp;&amp;nbsp; for line in cmpfile:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; result.append(float(line.strip()))
&amp;nbsp;&amp;nbsp;&amp;nbsp; cmpfile.close()
&amp;nbsp;&amp;nbsp;&amp;nbsp; return result



if __name__ == '__main__':
&amp;nbsp;&amp;nbsp;&amp;nbsp; main()&lt;/I&gt;&lt;/I&gt;&lt;/I&gt;&lt;/PRE&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Kind regards,&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Xander&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
    <pubDate>Sat, 11 Dec 2021 19:50:15 GMT</pubDate>
    <dc:creator>XanderBakker</dc:creator>
    <dc:date>2021-12-11T19:50:15Z</dc:date>
    <item>
      <title>Hey I was wondering about this function problem for a while</title>
      <link>https://community.esri.com/t5/python-questions/hey-i-was-wondering-about-this-function-problem/m-p/443427#M34733</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;def compare_signatures(sig1, sig2, weight):&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; """ (list, list, list of float) -&amp;gt; float&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; Return a non-negative real number indicating the similarity of the two &lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; linguistic signatures, sig1 and sig2. The smaller the number the more&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; similar the signatures. Zero indicates identical signatures.&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; &lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; sig1 and sig2 are 6-item lists with the following items:&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; 0&amp;nbsp; : Author Name (a string)&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; 1&amp;nbsp; : Average Word Length (float)&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; 2&amp;nbsp; : Type Token Ratio (float)&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; 3&amp;nbsp; : Hapax Legomena Ratio (float)&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; 4&amp;nbsp; : Average Sentence Length (float)&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; 5&amp;nbsp; : Average Sentence Complexity (float)&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; weight is a list of multiplicative weights to apply to each&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; linguistic feature. weight[0] is ignored.&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;gt;&amp;gt;&amp;gt; sig1 = ["a_string" , 4.4, 0.1, 0.05, 10.0, 2.0]&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;gt;&amp;gt;&amp;gt; sig2 = ["a_string2", 4.3, 0.1, 0.04, 16.0, 4.0]&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;gt;&amp;gt;&amp;gt; weight = [0, 11.0, 33.0, 50.0, 0.4, 4.0]&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;gt;&amp;gt;&amp;gt; compare_signatures(sig1, sig2, weight)&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; 12.000000000000007&lt;/SPAN&gt;&lt;BR /&gt;&lt;SPAN&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; """&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Sun, 02 Mar 2014 16:08:25 GMT</pubDate>
      <guid>https://community.esri.com/t5/python-questions/hey-i-was-wondering-about-this-function-problem/m-p/443427#M34733</guid>
      <dc:creator>CrombaBaaaa</dc:creator>
      <dc:date>2014-03-02T16:08:25Z</dc:date>
    </item>
    <item>
      <title>Re: Hey I was wondering about this function problem for a while</title>
      <link>https://community.esri.com/t5/python-questions/hey-i-was-wondering-about-this-function-problem/m-p/443428#M34734</link>
      <description>&lt;HTML&gt;&lt;HEAD&gt;&lt;/HEAD&gt;&lt;BODY&gt;&lt;SPAN&gt;I don't think this has much to do with ArcGIS...&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;You can find more on this topic on stackoverflow:&lt;/SPAN&gt;&lt;BR /&gt;&lt;A href="http://stackoverflow.com/questions/19887466/program-done-but-not-running-correctly" rel="nofollow noopener noreferrer" target="_blank"&gt;http://stackoverflow.com/questions/19887466/program-done-but-not-running-correctly&lt;/A&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;To make the code work you should apply some changes:&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;PRE class="lia-code-sample line-numbers language-none"&gt;import os.path, math

def main():

&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_filename = r'C:\Project\_Forums\compareSignatures\in\infile.txt'
&amp;nbsp;&amp;nbsp;&amp;nbsp; folder = r'C:\Project\_Forums\compareSignatures\signatures'
&amp;nbsp;&amp;nbsp;&amp;nbsp; # folder = r'C:\Project\_Forums\compareSignatures\comp'

&amp;nbsp;&amp;nbsp;&amp;nbsp; infile = open(mystery_filename, 'r')
&amp;nbsp;&amp;nbsp;&amp;nbsp; text = infile.read()
&amp;nbsp;&amp;nbsp;&amp;nbsp; infile.close()

&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_signature = [mystery_filename]
&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_signature.append(average_word_length(text))
&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_signature.append(type_token_ratio(text))
&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_signature.append(hapax_legomana_ratio(text))
&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_signature.append(average_sentence_length(text))
&amp;nbsp;&amp;nbsp;&amp;nbsp; mystery_signature.append(avg_sentence_complexity(text))

&amp;nbsp;&amp;nbsp;&amp;nbsp; weights = [0, 11, 33, 50, 0.4, 4]

&amp;nbsp;&amp;nbsp;&amp;nbsp; print "mystery_signature={0}".format(mystery_signature)

&amp;nbsp;&amp;nbsp;&amp;nbsp; # every file in this directory must be a linguistic signature
&amp;nbsp;&amp;nbsp;&amp;nbsp; files=os.listdir(folder)

##&amp;nbsp;&amp;nbsp;&amp;nbsp; # create some signature files
##&amp;nbsp;&amp;nbsp;&amp;nbsp; for this_file in files:
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; compfilename = os.path.join(folder, this_file)
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; compfile = open(compfilename, 'r')
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; text = compfile.read()
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; compfile.close()
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature = [compfilename]
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature.append(average_word_length(text))
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature.append(type_token_ratio(text))
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature.append(hapax_legomana_ratio(text))
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature.append(average_sentence_length(text))
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature.append(avg_sentence_complexity(text))
##
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; print ""
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; for row in signature:
##&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; print row


&amp;nbsp;&amp;nbsp;&amp;nbsp; this_file = files[0]
&amp;nbsp;&amp;nbsp;&amp;nbsp; signature = read_signature(os.path.join(folder,this_file))
&amp;nbsp;&amp;nbsp;&amp;nbsp; best_score = compare_signatures(mystery_signature, signature, weights)
&amp;nbsp;&amp;nbsp;&amp;nbsp; best_author = signature[0]
&amp;nbsp;&amp;nbsp;&amp;nbsp; for this_file in files[1:]:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; signature = read_signature(os.path.join(folder,this_file))
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; score = compare_signatures(mystery_signature, signature, weights)
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if score &amp;lt; best_score:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; best_score = score
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; best_author = signature[0]
&amp;nbsp;&amp;nbsp;&amp;nbsp; print( "best author match: {} with score {}".format(best_author, best_score))



def clean_up(s):
&amp;nbsp;&amp;nbsp;&amp;nbsp; ''' Return a version of string str in which all letters have been
&amp;nbsp;&amp;nbsp;&amp;nbsp; converted to lowercase and punctuation characters have been stripped
&amp;nbsp;&amp;nbsp;&amp;nbsp; from both ends. Inner punctuation is left untouched. '''

&amp;nbsp;&amp;nbsp;&amp;nbsp; punctuation = '''!"',;:.-?)([]&amp;lt;&amp;gt;*#\n\t\r'''
&amp;nbsp;&amp;nbsp;&amp;nbsp; result = s.lower().strip(punctuation)
&amp;nbsp;&amp;nbsp;&amp;nbsp; return result


def average_word_length(text):
&amp;nbsp;&amp;nbsp;&amp;nbsp; ''' Return the average length of all words in text. Do not
&amp;nbsp;&amp;nbsp;&amp;nbsp; include surrounding punctuation in words.
&amp;nbsp;&amp;nbsp;&amp;nbsp; text is a non-empty list of strings each ending in \n.
&amp;nbsp;&amp;nbsp;&amp;nbsp; At least one line in text contains a word.'''

&amp;nbsp;&amp;nbsp;&amp;nbsp; words = text.split()
&amp;nbsp;&amp;nbsp;&amp;nbsp; for word in words:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; average=sum(float(len(word)) for word in words)/float(len(words))
&amp;nbsp;&amp;nbsp;&amp;nbsp; return average


def type_token_ratio(text):
&amp;nbsp;&amp;nbsp;&amp;nbsp; ''' Return the type token ratio (TTR) for this text.
&amp;nbsp;&amp;nbsp;&amp;nbsp; TTR is the number of different words divided by the total number of words.
&amp;nbsp;&amp;nbsp;&amp;nbsp; text is a non-empty list of strings each ending in \n.
&amp;nbsp;&amp;nbsp;&amp;nbsp; At least one line in text contains a word. '''
&amp;nbsp;&amp;nbsp;&amp;nbsp; uniquewords = {}
&amp;nbsp;&amp;nbsp;&amp;nbsp; words=0
&amp;nbsp;&amp;nbsp;&amp;nbsp; for line in text.splitlines():
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; line=line.strip().split()
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; for word in line:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; words+=1
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if word in uniquewords:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; uniquewords[word]+=1
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; else:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; uniquewords[word]=1
&amp;nbsp;&amp;nbsp;&amp;nbsp; TTR = float(len(uniquewords))/float(words)
&amp;nbsp;&amp;nbsp;&amp;nbsp; return TTR


def hapax_legomana_ratio(text):
&amp;nbsp;&amp;nbsp;&amp;nbsp; ''' Return the hapax_legomana ratio for this text.
&amp;nbsp;&amp;nbsp;&amp;nbsp; This ratio is the number of words that occur exactly once divided
&amp;nbsp;&amp;nbsp;&amp;nbsp; by the total number of words.
&amp;nbsp;&amp;nbsp;&amp;nbsp; text is a list of strings each ending in \n.
&amp;nbsp;&amp;nbsp;&amp;nbsp; At least one line in text contains a word.'''

&amp;nbsp;&amp;nbsp;&amp;nbsp; uniquewords = dict()
&amp;nbsp;&amp;nbsp;&amp;nbsp; words = 0
&amp;nbsp;&amp;nbsp;&amp;nbsp; for line in text.splitlines():
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; line = line.strip().split()
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; for word in line:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; words += 1
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; word = word.replace(',', '').strip()
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if word in uniquewords:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; uniquewords[word] -= 1
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; else:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; uniquewords[word] = 1

&amp;nbsp;&amp;nbsp;&amp;nbsp; unique_count = 0
&amp;nbsp;&amp;nbsp;&amp;nbsp; for each in uniquewords:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if uniquewords[each] == 1:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; unique_count += 1
&amp;nbsp;&amp;nbsp;&amp;nbsp; HLR = float(unique_count)/float(words)
&amp;nbsp;&amp;nbsp;&amp;nbsp; return HLR


def split_on_separators(original, separators):
&amp;nbsp;&amp;nbsp;&amp;nbsp; ''' Return a list of non-empty, non-blank strings from the original string
&amp;nbsp;&amp;nbsp;&amp;nbsp; determined by splitting the string on any of the separators.
&amp;nbsp;&amp;nbsp;&amp;nbsp; separators is a string of single-character separators.'''


&amp;nbsp;&amp;nbsp;&amp;nbsp; result = []
&amp;nbsp;&amp;nbsp;&amp;nbsp; newstring=''

&amp;nbsp;&amp;nbsp;&amp;nbsp; for char in original:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if char in separators:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; result.append(newstring)
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; newstring=''
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; if '' in result:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; result.remove('')
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; else:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; newstring+=char
&amp;nbsp;&amp;nbsp;&amp;nbsp; return result

def average_sentence_length(text):
&amp;nbsp;&amp;nbsp;&amp;nbsp; ''' Return the average number of words per sentence in text.
&amp;nbsp;&amp;nbsp;&amp;nbsp; text is guaranteed to have at least one sentence.
&amp;nbsp;&amp;nbsp;&amp;nbsp; Terminating punctuation defined as !?.
&amp;nbsp;&amp;nbsp;&amp;nbsp; A sentence is defined as a non-empty string of non-terminating
&amp;nbsp;&amp;nbsp;&amp;nbsp; punctuation surrounded by terminating punctuation
&amp;nbsp;&amp;nbsp;&amp;nbsp; or beginning or end of file. '''
&amp;nbsp;&amp;nbsp;&amp;nbsp; words=0
&amp;nbsp;&amp;nbsp;&amp;nbsp; Sentences=0
&amp;nbsp;&amp;nbsp;&amp;nbsp; for line in text.split():
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; words+=1
&amp;nbsp;&amp;nbsp;&amp;nbsp; sentence=split_on_separators(text,'?!.')
&amp;nbsp;&amp;nbsp;&amp;nbsp; for sep in sentence:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; Sentences+=1

&amp;nbsp;&amp;nbsp;&amp;nbsp; ASL = float(words) / float(Sentences)
&amp;nbsp;&amp;nbsp;&amp;nbsp; return ASL


def avg_sentence_complexity(text):
&amp;nbsp;&amp;nbsp;&amp;nbsp; '''Return the average number of phrases per sentence.
&amp;nbsp;&amp;nbsp;&amp;nbsp; Terminating punctuation defined as !?.
&amp;nbsp;&amp;nbsp;&amp;nbsp; A sentence is defined as a non-empty string of non-terminating
&amp;nbsp;&amp;nbsp;&amp;nbsp; punctuation surrounded by terminating punctuation
&amp;nbsp;&amp;nbsp;&amp;nbsp; or beginning or end of file.
&amp;nbsp;&amp;nbsp;&amp;nbsp; Phrases are substrings of a sentences separated by
&amp;nbsp;&amp;nbsp;&amp;nbsp; one or more of the following delimiters ,;: '''
&amp;nbsp;&amp;nbsp;&amp;nbsp; Sentences=0
&amp;nbsp;&amp;nbsp;&amp;nbsp; Phrases=0
&amp;nbsp;&amp;nbsp;&amp;nbsp; sentence=split_on_separators(text,'?!.')
&amp;nbsp;&amp;nbsp;&amp;nbsp; for sep in sentence:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; Sentences+=1
&amp;nbsp;&amp;nbsp;&amp;nbsp; Phrase=split_on_separators(text, ',;:')
&amp;nbsp;&amp;nbsp;&amp;nbsp; for n in Phrase:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; Phrases+=1
&amp;nbsp;&amp;nbsp;&amp;nbsp; ASC = float(Phrases) / float(Sentences)
&amp;nbsp;&amp;nbsp;&amp;nbsp; return ASC



def compare_signatures(sig1, sig2, weight):
&amp;nbsp;&amp;nbsp;&amp;nbsp; '''Return a non-negative real number indicating the similarity of two
&amp;nbsp;&amp;nbsp;&amp;nbsp; linguistic signatures. The smaller the number the more similar the
&amp;nbsp;&amp;nbsp;&amp;nbsp; signatures. Zero indicates identical signatures.
&amp;nbsp;&amp;nbsp;&amp;nbsp; sig1 and sig2 are 6 element lists with the following elements
&amp;nbsp;&amp;nbsp;&amp;nbsp; 0&amp;nbsp; : author name (a string)
&amp;nbsp;&amp;nbsp;&amp;nbsp; 1&amp;nbsp; : average word length (float)
&amp;nbsp;&amp;nbsp;&amp;nbsp; 2&amp;nbsp; : TTR (float)
&amp;nbsp;&amp;nbsp;&amp;nbsp; 3&amp;nbsp; : Hapax Legomana Ratio (float)
&amp;nbsp;&amp;nbsp;&amp;nbsp; 4&amp;nbsp; : average sentence length (float)
&amp;nbsp;&amp;nbsp;&amp;nbsp; 5&amp;nbsp; : average sentence complexity (float)
&amp;nbsp;&amp;nbsp;&amp;nbsp; weight is a list of multiplicative weights to apply to each
&amp;nbsp;&amp;nbsp;&amp;nbsp; linguistic feature. weight[0] is ignored.
&amp;nbsp;&amp;nbsp;&amp;nbsp; '''
&amp;nbsp;&amp;nbsp;&amp;nbsp; result = 0
&amp;nbsp;&amp;nbsp;&amp;nbsp; i=1
&amp;nbsp;&amp;nbsp;&amp;nbsp; while i &amp;lt;=5:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; result +=(abs(sig1&lt;I&gt;-sig2&lt;I&gt;))*weight&lt;I&gt;
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; i+=1
&amp;nbsp;&amp;nbsp;&amp;nbsp; return&amp;nbsp; result


def read_signature(filename):
&amp;nbsp;&amp;nbsp;&amp;nbsp; '''Read a linguistic signature from filename and return it as
&amp;nbsp;&amp;nbsp;&amp;nbsp; list of features. '''

&amp;nbsp;&amp;nbsp;&amp;nbsp; cmpfile = open(filename, 'r')
&amp;nbsp;&amp;nbsp;&amp;nbsp; # the first feature is a string so it doesn't need casting to float
&amp;nbsp;&amp;nbsp;&amp;nbsp; result = [cmpfile.readline()]
&amp;nbsp;&amp;nbsp;&amp;nbsp; # all remaining features are real numbers
&amp;nbsp;&amp;nbsp;&amp;nbsp; for line in cmpfile:
&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; result.append(float(line.strip()))
&amp;nbsp;&amp;nbsp;&amp;nbsp; cmpfile.close()
&amp;nbsp;&amp;nbsp;&amp;nbsp; return result



if __name__ == '__main__':
&amp;nbsp;&amp;nbsp;&amp;nbsp; main()&lt;/I&gt;&lt;/I&gt;&lt;/I&gt;&lt;/PRE&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Kind regards,&lt;/SPAN&gt;&lt;BR /&gt;&lt;BR /&gt;&lt;SPAN&gt;Xander&lt;/SPAN&gt;&lt;/BODY&gt;&lt;/HTML&gt;</description>
      <pubDate>Sat, 11 Dec 2021 19:50:15 GMT</pubDate>
      <guid>https://community.esri.com/t5/python-questions/hey-i-was-wondering-about-this-function-problem/m-p/443428#M34734</guid>
      <dc:creator>XanderBakker</dc:creator>
      <dc:date>2021-12-11T19:50:15Z</dc:date>
    </item>
  </channel>
</rss>

