Future-House · whitead · Sep 8, 2024 · Jun 20, 2024 · Jun 21, 2024 · Jun 25, 2024
diff --git a/.gitignore b/.gitignore
@@ -100,6 +100,7 @@ fabric.properties
 !.vscode/launch.json
 !.vscode/extensions.json
 !.vscode/*.code-snippets
+.vscode
 
 # Local History for Visual Studio Code
 .history/
@@ -301,5 +302,6 @@ env
 
 # Matching pyproject.toml
 paperqa/version.py
-tests/example*
+tests/*txt
+tests/*html
 tests/test_index/*
diff --git a/README.md b/README.md
@@ -173,7 +173,6 @@ local_client = AsyncOpenAI(
 
 docs = Docs(
     client=local_client,
-    docs_index=NumpyVectorStore(embedding_model=LlamaEmbeddingModel()),
     texts_index=NumpyVectorStore(embedding_model=LlamaEmbeddingModel()),
     llm_model=OpenAILLMModel(
         config=dict(
@@ -201,15 +200,12 @@ docs = Docs(embedding="text-embedding-3-large")
 - `"hybrid-<model_name>"` i.e. `"hybrid-text-embedding-3-small"` to use a hybrid sparse keyword (based on a token modulo embedding) and dense vector embedding, any OpenAI or VoyageAI model can be used in the dense model name
 - `"sparse"` to use a sparse keyword embedding only
 
-For deeper embedding customization, embedding models and vector stores can be built separately and passed into the `Docs` object. Embedding models are used to create both paper-qa's index of document citation embedding vectors (`docs_index` argument) as well as the full-text embedding vectors (`texts_index` argument). They can both be specified as arguments when you create a new `Docs` object. You can use use any embedding model which implements paper-qa's `EmbeddingModel` class. For example, to use `text-embedding-3-large`:
+For deeper embedding customization, embedding models and vector stores can be built separately and passed into the `Docs` object. Embedding models are used to create paper-qa's index of the full-text embedding vectors (`texts_index` argument). They can both be specified as arguments when you create a new `Docs` object. You can use use any embedding model which implements paper-qa's `EmbeddingModel` class. For example, to use `text-embedding-3-large`:
 
 ```python
 from paperqa import Docs, NumpyVectorStore, OpenAIEmbeddingModel
 
 docs = Docs(
-    docs_index=NumpyVectorStore(
-        embedding_model=OpenAIEmbeddingModel(name="text-embedding-3-large")
-    ),
     texts_index=NumpyVectorStore(
         embedding_model=OpenAIEmbeddingModel(name="text-embedding-3-large")
     ),
@@ -224,7 +220,6 @@ from langchain_openai import OpenAIEmbeddings
 from paperqa import Docs, LangchainVectorStore
 
 docs = Docs(
-    docs_index=LangchainVectorStore(cls=FAISS, embedding_model=OpenAIEmbeddings()),
     texts_index=LangchainVectorStore(cls=FAISS, embedding_model=OpenAIEmbeddings()),
 )
 ```
@@ -243,7 +238,6 @@ local_client = AsyncOpenAI(
 
 docs = Docs(
     client=local_client,
-    docs_index=NumpyVectorStore(embedding_model=SentenceTransformerEmbeddingModel()),
     texts_index=NumpyVectorStore(embedding_model=SentenceTransformerEmbeddingModel()),
     llm_model=OpenAILLMModel(
         config=dict(
@@ -260,7 +254,6 @@ from paperqa import Docs, HybridEmbeddingModel, SparseEmbeddingModel, NumpyVecto
 
 model = HybridEmbeddingModel(models=[OpenAIEmbeddingModel(), SparseEmbeddingModel()])
 docs = Docs(
-    docs_index=NumpyVectorStore(embedding_model=model),
     texts_index=NumpyVectorStore(embedding_model=model),
 )
 ```
@@ -318,7 +311,6 @@ from langchain_openai import OpenAIEmbeddings
 
 docs = Docs(
     texts_index=LangchainVectorStore(cls=FAISS, embedding_model=OpenAIEmbeddings()),
-    docs_index=LangchainVectorStore(cls=FAISS, embedding_model=OpenAIEmbeddings()),
 )
 ```
 

diff --git a/paperqa/__init__.py b/paperqa/__init__.py
@@ -1,4 +1,5 @@
-from .docs import Answer, Context, Doc, Docs, PromptCollection, Text, print_callback
+from .config import Settings, get_settings
+from .docs import Answer, Docs, print_callback
 from .llms import (
     AnthropicLLMModel,
     EmbeddingModel,
@@ -18,7 +19,7 @@
     llm_model_factory,
     vector_store_factory,
 )
-from .types import DocDetails
+from .types import Context, Doc, DocDetails, Text
 from .version import __version__
 
 __all__ = [
@@ -39,12 +40,13 @@
     "NumpyVectorStore",
     "OpenAIEmbeddingModel",
     "OpenAILLMModel",
-    "PromptCollection",
     "SentenceTransformerEmbeddingModel",
+    "Settings",
     "SparseEmbeddingModel",
     "Text",
     "__version__",
     "embedding_model_factory",
+    "get_settings",
     "llm_model_factory",
     "print_callback",
     "vector_store_factory",

diff --git a/paperqa/agents/__init__.py b/paperqa/agents/__init__.py
@@ -7,16 +7,14 @@
 import shutil
 from datetime import datetime
 from pathlib import Path
-from typing import Any
+from typing import Annotated, Any
 
 import yaml
-from typing_extensions import Annotated
 
 from .. import __version__
 from ..utils import get_loop, pqa_directory
 
 try:
-    import anyio
     import typer
     from rich.console import Console
     from rich.logging import RichHandler
@@ -105,7 +103,7 @@ def parse_dot_to_dict(str_w_dots: str, value: str) -> dict[str, Any]:
         if not parsed:
             try:
                 eval_value = ast.literal_eval(value)
-                if isinstance(eval_value, (set, list)):
+                if isinstance(eval_value, set | list):
                     parsed[key] = eval_value
                 else:
                     parsed[key] = value
@@ -410,7 +408,6 @@ def ask(
             docs=None,
             verbosity=verbosity,
             agent_type=agent_type,
-            index_directory=request.agent_tools.index_directory,
         )
     )
 
@@ -511,23 +508,7 @@ def build_index(
     loop = get_loop()
 
     return loop.run_until_complete(
-        get_directory_index(
-            directory=anyio.Path(request_settings.agent_tools.paper_directory),
-            index_directory=request_settings.agent_tools.index_directory,
-            index_name=request_settings.get_index_name(
-                request_settings.agent_tools.paper_directory,
-                request_settings.embedding,
-                request_settings.parsing_configuration,
-            ),
-            manifest_file=(
-                anyio.Path(request_settings.agent_tools.manifest_file)
-                if request_settings.agent_tools.manifest_file
-                else None
-            ),
-            embedding=request_settings.embedding,
-            chunk_chars=request_settings.parsing_configuration.chunksize,
-            overlap=request_settings.parsing_configuration.overlap,
-        )
+        get_directory_index(settings=request_settings.settings)
     )
 
 

diff --git a/paperqa/agents/helpers.py b/paperqa/agents/helpers.py
@@ -169,26 +169,28 @@ def update_doc_models(doc: Docs, request: QueryRequest | None = None):
         request = QueryRequest()
     client: Any = None
 
-    if request.llm.startswith("gemini"):
-        doc.llm_model = LangchainLLMModel(name=request.llm)
-        doc.summary_llm_model = LangchainLLMModel(name=request.summary_llm)
+    if request.settings.llm.startswith("gemini"):
+        doc.llm_model = LangchainLLMModel(name=request.settings.llm)
+        doc.summary_llm_model = LangchainLLMModel(name=request.settings.summary_llm)
     else:
-        doc.llm_model = llm_model_factory(request.llm)
-        doc.summary_llm_model = llm_model_factory(request.summary_llm)
+        doc.llm_model = llm_model_factory(request.settings.llm)
+        doc.summary_llm_model = llm_model_factory(request.settings.summary_llm)
 
     # set temperatures
-    doc.llm_model.config["temperature"] = request.temperature
-    doc.summary_llm_model.config["temperature"] = request.temperature
+    doc.llm_model.config["temperature"] = request.settings.temperature
+    doc.summary_llm_model.config["temperature"] = request.settings.temperature
 
     if isinstance(doc.llm_model, OpenAILLMModel):
-        if request.llm.startswith(
+        if request.settings.llm.startswith(
             ("meta-llama/Meta-Llama-3-", "mistralai/Mistral-", "mistralai/Mixtral-")
         ):
             client = AsyncOpenAI(
                 base_url=os.environ.get("ANYSCALE_BASE_URL"),
                 api_key=os.environ.get("ANYSCALE_API_KEY"),
             )
-            logger.info(f"Using Anyscale (via OpenAI client) for {request.llm}")
+            logger.info(
+                f"Using Anyscale (via OpenAI client) for {request.settings.llm}"
+            )
         else:
             client = AsyncOpenAI()
     elif isinstance(doc.llm_model, AnthropicLLMModel):
@@ -203,7 +205,7 @@ def update_doc_models(doc: Docs, request: QueryRequest | None = None):
         # we have to convert system to human because system is unsupported
         # Also we do get blocked content, so adjust thresholds
         client = ChatVertexAI(
-            model=request.llm,
+            model=request.settings.llm,
             safety_settings={
                 HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT: HarmBlockThreshold.BLOCK_ONLY_HIGH,
                 HarmCategory.HARM_CATEGORY_HATE_SPEECH: HarmBlockThreshold.BLOCK_ONLY_HIGH,
@@ -219,20 +221,13 @@ def update_doc_models(doc: Docs, request: QueryRequest | None = None):
     doc._embedding_client = AsyncOpenAI()  # hard coded to OpenAI for now
 
     doc.texts_index.embedding_model = embedding_model_factory(
-        request.embedding, **(request.texts_index_embedding_config or {})
-    )
-    doc.docs_index.embedding_model = embedding_model_factory(
-        request.embedding, **(request.docs_index_embedding_config or {})
+        request.settings.embedding, **(request.settings.embedding_config or {})
     )
-    doc.texts_index.mmr_lambda = request.texts_index_mmr_lambda
-    doc.docs_index.mmr_lambda = request.docs_index_mmr_lambda
-    doc.embedding = request.embedding
-    doc.max_concurrent = request.max_concurrent
-    doc.prompts = request.prompts
+    doc.texts_index.mmr_lambda = request.settings.texts_index_mmr_lambda
+    doc.embedding = request.settings.embedding
     Docs.make_llm_names_consistent(doc)
 
     logger.debug(
         f"update_doc_models: {doc.name}"
         f" | {(doc.llm_model.config)} | {(doc.summary_llm_model.config)}"
-        f" | {doc.docs_index.__class__}"
     )
diff --git a/paperqa/agents/main.py b/paperqa/agents/main.py
@@ -45,17 +45,13 @@ async def agent_query(
     docs: Docs | None = None,
     agent_type: str = "OpenAIFunctionsAgent",
     verbosity: int = 0,
-    index_directory: str | os.PathLike | None = None,
 ) -> AnswerResponse:
     if isinstance(query, str):
         query = QueryRequest(query=query)
 
     if docs is None:
         docs = Docs()
 
-    if index_directory is None:
-        index_directory = pqa_directory("indexes")
-
     # in-place modification of the docs object to match query
     update_doc_models(
         docs,
@@ -65,7 +61,7 @@ async def agent_query(
     search_index = SearchIndex(
         fields=[*SearchIndex.REQUIRED_FIELDS, "question"],
         index_name="answers",
-        index_directory=index_directory,
+        index_directory=query.settings.agent.index_directory,
         storage=SearchDocumentStorage.JSON_MODEL_DUMP,
     )
 
@@ -110,7 +106,7 @@ async def run_agent(
         Tuple of resultant answer, token counts, and agent status.
     """
     profiler = SimpleProfiler()
-    outer_profile_name = f"agent-{agent_type}-{query.agent_llm}"
+    outer_profile_name = f"agent-{agent_type}-{query.settings.agent.agent_llm}"
     profiler.start(outer_profile_name)
 
     logger.info(
@@ -141,8 +137,10 @@ async def run_fake_agent(
     query: QueryRequest,
     docs: Docs,
 ) -> tuple[Answer, AgentStatus]:
-    answer = Answer(question=query.query, dockey_filter=set(), id=query.id)
-    tools = query_to_tools(query, state=SharedToolState(docs=docs, answer=answer))
+    answer = Answer(question=query.query, id=query.id)
+    tools = query_to_tools(
+        query, state=SharedToolState(docs=docs, answer=answer, settings=query.settings)
+    )
     search_tool = cast(
         PaperSearchTool,
         next(
@@ -170,7 +168,7 @@ async def run_fake_agent(
     )
     # seed docs with keyword search
     for search in await openai_get_search_query(
-        answer.question, llm=query.llm, count=3
+        answer.question, llm=query.settings.llm, count=3
     ):
         await search_tool.arun(search)
 
@@ -194,15 +192,17 @@ async def run_langchain_agent(
     profiler: SimpleProfiler,
     timeout: float | None = None,  # noqa: ASYNC109
 ) -> tuple[Answer, AgentStatus]:
-    answer = Answer(question=query.query, dockey_filter=set(), id=query.id)
+    answer = Answer(question=query.query, id=query.id)
     shared_callbacks: list[BaseCallbackHandler] = [
         AgentCallback(
-            profiler, name=f"step-{agent_type}-{query.agent_llm}", answer_id=answer.id
+            profiler,
+            name=f"step-{agent_type}-{query.settings.agent.agent_llm}",
+            answer_id=answer.id,
         ),
     ]
     tools = query_to_tools(
         query,
-        state=SharedToolState(docs=docs, answer=answer),
+        state=SharedToolState(docs=docs, answer=answer, settings=query.settings),
         callbacks=shared_callbacks,
     )
     try:
@@ -223,25 +223,25 @@ async def run_langchain_agent(
     )
 
     # optionally use the search tool before the agent
-    if search_tool is not None and query.agent_tools.should_pre_search:
+    if search_tool is not None and query.settings.agent.should_pre_search:
         logger.debug("Running search tool before agent choice.")
         await search_tool.arun(answer.question)
     else:
         logger.debug("Skipping search tool before agent choice.")
 
     llm = ChatOpenAI(
-        model=query.agent_llm,
-        request_timeout=timeout or query.agent_tools.timeout / 2.0,
-        temperature=query.temperature,
+        model=query.settings.agent.agent_llm,
+        request_timeout=timeout or query.settings.agent.timeout / 2.0,
+        temperature=query.settings.temperature,
     )
     agent_status = AgentStatus.SUCCESS
     cost_callback = OpenAICallbackHandler()
     agent_instance = LANGCHAIN_AGENT_TYPES[agent_type].from_llm_and_tools(
         llm,
         tools,
         system_message=(
-            SystemMessage(content=query.agent_tools.agent_system_prompt)
-            if query.agent_tools.agent_system_prompt
+            SystemMessage(content=query.settings.agent.agent_system_prompt)
+            if query.settings.agent.agent_system_prompt
             else None
         ),
     )
@@ -251,9 +251,8 @@ async def run_langchain_agent(
         agent=agent_instance,
         return_intermediate_steps=True,
         handle_parsing_errors=True,
-        max_execution_time=query.agent_tools.timeout,
+        max_execution_time=query.settings.agent.timeout,
         callbacks=[*shared_callbacks, cost_callback],
-        **(query.agent_tools.agent_config or {}),
     )
 
     async def aplan_with_injected_callbacks(
@@ -276,7 +275,7 @@ async def aplan_with_injected_callbacks(
                 input={
                     # NOTE: str.format still works even if the prompt doesn't have
                     # template fields like 'status' or 'gen_answer_tool_name'
-                    "input": query.agent_tools.agent_prompt.format(
+                    "input": query.settings.agent.agent_prompt.format(
                         question=answer.question,
                         status=await status(docs, answer),
                         gen_answer_tool_name=answer_tool.name,
@@ -297,7 +296,7 @@ async def aplan_with_injected_callbacks(
         if "Agent stopped" in call_response["output"]:
             # Log that this agent has gone over timeout, and then answer directly
             logger.warning(
-                f"Agent timeout after {query.agent_tools.timeout}-sec, just answering."
+                f"Agent timeout after {query.settings.agent.timeout}-sec, just answering."
             )
             await answer_tool.arun(answer.question)
             agent_status = AgentStatus.TIMEOUT