"""
这个文件会根据对应的试卷code,去网站上提取它的题目和答案,并处理成可以被简浴包分析的 Lua 文件。
请注意,生成文件后,你需要手动:
1. 添加公式/删除其中含有图片、含有资料的题目;
2. 修改英文冒号为中文冒号;
3. 修改百分号为双百分号;
4. 把所有填入画横线部分的线画出来。
目前的爬虫程序做不到这些。
"""
import requests
from bs4 import BeautifulSoup
code = "1706852967747"
# 获取选择题网页内容
url_questions = f'https://www.gkzenti.cn/paper/{code}'
response_questions = requests.get(url_questions)
html_content_questions = response_questions.text
# 使用BeautifulSoup解析HTML
soup_questions = BeautifulSoup(html_content_questions, 'html.parser')
# 找到所有包含选择题的div元素
questions_divs = soup_questions.find_all('div', class_='row')
# 定义Lua列表
lua_list = []
# 遍历每个问题的div元素
for idx, question_div in enumerate(questions_divs, start=1):
# 检查是否包含正确的结构
if question_div.find('div', class_='col-xs-1 left') is None or question_div.find('div', class_='col-xs-11 right') is None:
continue
# 获取题干内容,包括多行的情况
question_text_elements = question_div.find('div', class_='col-xs-11 right').find_all('p')
question_text = '
\n'.join([element.get_text(strip=True) for element in question_text_elements])
# 寻找所有的选项,包括