2 years ago · decf3ff912
--- a/expert_report/parse_expert_pdf.py
+++ b/expert_report/parse_expert_pdf.py
@@ -8,6 +8,8 @@ from parse_expert_pdf_utils import (
 
															     defendent_extraction,
														
 
															     expert_name_extraction,
														
 
															     case_number_extraction,
														
 
															+    patent_extraction,
														
 
															+    hourly_compensation,
														
 
															 )
														
@@ -26,11 +28,14 @@ def main(path: str) -> pd.DataFrame:
 
															         content = parser.from_file(file)["content"]
														
 
															         data["file"].append(file)
														
 
															         data["full_name"].append(expert_name_extraction(content))
														
 
															+        data["hourly_pay"].append(hourly_compensation(content))
														
 
															         data["plaintiff"].append(plaintiff_extraction(content))
														
 
															         data["defendant"].append(defendent_extraction(content))
														
 
															         data["case_number"].append(case_number_extraction(content))
														
 
															+        data["patents"].append(patent_extraction(content))
														
 
															     data_expert = pd.DataFrame(data)
														
 
															+    data_expert.to_csv("required_data.csv")
														
 
															     return data_expert
														
--- a/expert_report/parse_expert_pdf_utils.py
+++ b/expert_report/parse_expert_pdf_utils.py
@@ -87,11 +87,11 @@ def patent_extraction(content):
 
															     Extracts patent numbers from the document
														
 
															     """
														
 
															     regex = r"\d{1,3}\,\d{1,3}\,\d{3}\,?"
														
 
															-    results = []
														
 
															+    result = set()
														
 
															     patent = re.compile(regex, re.IGNORECASE)
														
 
															     for current in patent.finditer(content):
														
 
															-        results.append(current.group().replace(",", ""))
														
 
															-    return list(set(results))
														
 
															+        result.add(current.group().replace(",", ""))
														
 
															+    return list(result)
														
 
															 def law_firm_extraction(content):
														
@@ -113,9 +113,11 @@ def hourly_compensation(content):
 
															     """
														
 
															     Returns the hourly compensation of the expert.
														
 
															     """
														
 
															-    regex = "\$\s?\d+"
														
 
															-    pay = re.findall(regex, content)
														
 
															-    return pay
														
 
															+    regex = "\$\s?\d{3,4}"
														
 
															+    try:
														
 
															+        return re.search(regex, content).group(0)
														
 
															+    except:
														
 
															+        return "None"
														
 
															 def ref_patents(content):