2 년 전 · 9ede71404d
--- a/expert_report/parse_expert_pdf.py
+++ b/expert_report/parse_expert_pdf.py
@@ -3,6 +3,7 @@ import os
 
				 import tika
			
 
				 from tika import parser
			
 
				 import pandas as pd
			
 
				+from pandas import DataFrame
			
 
				 from parse_expert_pdf_utils import (
			
 
				     plaintiff_extraction,
			
 
				     defendent_extraction,
			
@@ -10,13 +11,14 @@ from parse_expert_pdf_utils import (
 
				     case_number_extraction,
			
 
				     patent_extraction,
			
 
				     hourly_compensation,
			
 
				+    extract_email,
			
 
				 )
			
 
				 
			
 
				 
			
 
				 tika.initVM()
			
 
				 
			
 
				 
			
 
				-def main(path: str) -> pd.DataFrame:
			
 
				+def main(path: str) -> DataFrame:
			
 
				     """
			
 
				     The functions iterates through all the given files and gathers the data in the \
			
 
				     form of a dataframe
			
@@ -27,6 +29,7 @@ def main(path: str) -> pd.DataFrame:
 
				         print(file)
			
 
				         content = parser.from_file(file)["content"]
			
 
				         data["file"].append(file)
			
 
				+        data["email"].append(content)
			
 
				         data["full_name"].append(expert_name_extraction(content))
			
 
				         data["hourly_pay"].append(hourly_compensation(content))
			
 
				         data["plaintiff"].append(plaintiff_extraction(content))
			
--- a/expert_report/parse_expert_pdf_utils.py
+++ b/expert_report/parse_expert_pdf_utils.py
@@ -1,7 +1,7 @@
 
				 import re
			
 
				 
			
 
				 
			
 
				-def date_extraction(content):
			
 
				+def date_extraction(content: str) -> str:
			
 
				     """
			
 
				     extracts filing date from the documents.
			
 
				     """
			
@@ -12,7 +12,18 @@ def date_extraction(content):
 
				         return "None"
			
 
				 
			
 
				 
			
 
				-def address_extraction(content):
			
 
				+def extract_email(content: str) -> str:
			
 
				+    """
			
 
				+    extracts email from the documents.
			
 
				+    """
			
 
				+    pattern = r"[a-z0-9]+@+[a-z].*?\.\w+\.?\w+"
			
 
				+    try:
			
 
				+        return re.search(pattern, content).group()
			
 
				+    except:
			
 
				+        return "None"
			
 
				+
			
 
				+
			
 
				+def address_extraction(content: str) -> str:
			
 
				     """
			
 
				     extracts address from the documents.
			
 
				     """
			
@@ -23,7 +34,7 @@ def address_extraction(content):
 
				         return "None"
			
 
				 
			
 
				 
			
 
				-def refer_exteraction(content):
			
 
				+def refer_exteraction(content: str) -> str:
			
 
				     """
			
 
				     extract referals from the documents.
			
 
				     """
			
@@ -37,7 +48,7 @@ def refer_exteraction(content):
 
				         return "None"
			
 
				 
			
 
				 
			
 
				-def case_number_extraction(content):
			
 
				+def case_number_extraction(content: str) -> str:
			
 
				     """
			
 
				     Extracts the case number from the documents.
			
 
				     """
			
@@ -49,7 +60,7 @@ def case_number_extraction(content):
 
				     return list(results)
			
 
				 
			
 
				 
			
 
				-def expert_name_extraction(content):
			
 
				+def expert_name_extraction(content: str) -> str:
			
 
				     """
			
 
				     Extracts the name of the expert from the document.
			
 
				     """
			
@@ -60,7 +71,7 @@ def expert_name_extraction(content):
 
				         return "None"
			
 
				 
			
 
				 
			
 
				-def plaintiff_extraction(content):
			
 
				+def plaintiff_extraction(content: str) -> str:
			
 
				     """
			
 
				     Extracts the plaintiff from the document
			
 
				     """
			
@@ -71,7 +82,7 @@ def plaintiff_extraction(content):
 
				         return "None"
			
 
				 
			
 
				 
			
 
				-def defendent_extraction(content):
			
 
				+def defendent_extraction(content: str) -> str:
			
 
				     """
			
 
				     Extracts the defendant from the document
			
 
				     """
			
@@ -82,7 +93,7 @@ def defendent_extraction(content):
 
				         return "None"
			
 
				 
			
 
				 
			
 
				-def patent_extraction(content):
			
 
				+def patent_extraction(content: str) -> str:
			
 
				     """
			
 
				     Extracts patent numbers from the document
			
 
				     """
			
@@ -94,7 +105,7 @@ def patent_extraction(content):
 
				     return list(result)
			
 
				 
			
 
				 
			
 
				-def law_firm_extraction(content):
			
 
				+def law_firm_extraction(content: str) -> str:
			
 
				     regex = r""
			
 
				     results = []
			
 
				     firm = re.compile(regex, re.IGNORECASE)
			
@@ -103,13 +114,15 @@ def law_firm_extraction(content):
 
				     return results
			
 
				 
			
 
				 
			
 
				-def on_behalf_of_extraction(content):
			
 
				+def on_behalf_of_extraction(content: str) -> str:
			
 
				     regex = "on\sbehalf\sof(.*?)(C|c)ase"
			
 
				-    on_behalf_of = re.search(regex, content).groups()[0].strip()
			
 
				-    return on_behalf_of
			
 
				+    # try:
			
 
				+    return re.search(regex, content)
			
 
				+    # except:
			
 
				+    #     return "None"
			
 
				 
			
 
				 
			
 
				-def hourly_compensation(content):
			
 
				+def hourly_compensation(content: str) -> str:
			
 
				     """
			
 
				     Returns the hourly compensation of the expert.
			
 
				     """
			
@@ -120,15 +133,15 @@ def hourly_compensation(content):
 
				         return "None"
			
 
				 
			
 
				 
			
 
				-def ref_patents(content):
			
 
				+def ref_patents(content: str) -> str:
			
 
				     return
			
 
				 
			
 
				 
			
 
				-def acronym_extraction(content):
			
 
				+def acronym_extraction(content: str) -> str:
			
 
				     regex = r"\([A-Z]+\)"
			
 
				     # results = []
			
 
				     # acronym = re.compile(regex, re.IGNORECASE)
			
 
				-    # for current in acronym.finditer(content):
			
 
				+    # for current in acronym.finditer(content: str) -> str:
			
 
				     #     results.append(current)
			
 
				     acronym = re.findall(regex, content)
			
 
				     return list(set(acronym))
			
--- a/expert_resume/parse_expert_resume.py
+++ b/expert_resume/parse_expert_resume.py
@@ -3,6 +3,7 @@ import os
 
				 from IPython.display import display
			
 
				 import tika
			
 
				 import pandas as pd
			
 
				+from pandas import DataFrame
			
 
				 
			
 
				 tika.initVM()
			
 
				 from tika import parser
			
@@ -18,7 +19,7 @@ from parse_resume_utils import (
 
				 )
			
 
				 
			
 
				 
			
 
				-def main(PATH):
			
 
				+def main(PATH: str) -> DataFrame:
			
 
				     """
			
 
				     Returns the required data in a dataframe format
			
 
				     """
			
--- a/expert_resume/parse_resume_utils.py
+++ b/expert_resume/parse_resume_utils.py
@@ -1,18 +1,18 @@
 
				 import re
			
 
				 
			
 
				 
			
 
				-def extract_email(content):
			
 
				+def extract_email(content: str) -> str:
			
 
				     """
			
 
				     Extracts email id of the expert
			
 
				     """
			
 
				+    pattern = r"[a-z0-9]+@+[a-z].*?\.\w+\.?\w+"
			
 
				     try:
			
 
				-        pattern = r"[a-z0-9]+@+[a-z].*?\.\w+\.?\w+"
			
 
				         return re.search(pattern, content).group()
			
 
				     except:
			
 
				         return "None"
			
 
				 
			
 
				 
			
 
				-def extract_zipcode(content):
			
 
				+def extract_zipcode(content: str) -> str:
			
 
				     """
			
 
				     Extracts zipcode from the resume
			
 
				     """
			
@@ -23,18 +23,18 @@ def extract_zipcode(content):
 
				         return "None"
			
 
				 
			
 
				 
			
 
				-def extract_phone(content):
			
 
				+def extract_phone(content: str) -> str:
			
 
				     """
			
 
				     Extracts phone number of the expert.
			
 
				     """
			
 
				+    pattern = r"(\(?\d{3}\)?\-?\s?\d{3}\-\d{4})"
			
 
				     try:
			
 
				-        pattern = r"(\(?\d{3}\)?\-?\s?\d{3}\-\d{4})"
			
 
				         return re.search(pattern, content).group()
			
 
				     except:
			
 
				         return "None"
			
 
				 
			
 
				 
			
 
				-def extract_case_numbers(content):
			
 
				+def extract_case_numbers(content: str) -> str:
			
 
				     """
			
 
				     Extracts all the case numbers associated with resume
			
 
				     """
			
@@ -45,18 +45,18 @@ def extract_case_numbers(content):
 
				     return list(set(results))
			
 
				 
			
 
				 
			
 
				-def extract_litigation_experience(content):
			
 
				+def extract_litigation_experience(content: str) -> str:
			
 
				     """
			
 
				     Extracts the litigation experience of the expert
			
 
				     """
			
 
				+    pattern = r"(\d+|\w+)\s?years"
			
 
				     try:
			
 
				-        pattern = r"(\d+|\w+)\s?years"
			
 
				         return re.search(pattern, content).group()
			
 
				     except:
			
 
				         return "None"
			
 
				 
			
 
				 
			
 
				-def extract_patents_issued(content):
			
 
				+def extract_patents_issued(content: str) -> str:
			
 
				     """
			
 
				     Returns the patents issued by the expert
			
 
				     """
			
@@ -68,7 +68,7 @@ def extract_patents_issued(content):
 
				     return list(set(results))
			
 
				 
			
 
				 
			
 
				-def extract_name(content):
			
 
				+def extract_name(content: str) -> str:
			
 
				     """
			
 
				     Returns the name of the expert
			
 
				     """