通过基本的 Python 工具获得爬取完整 HTML 网站的实践经验。

(本文字数:11235,阅读时长大约:14 分钟)

有很多很棒的书可以帮助你学习 Python ,但是谁真正读了这那些大部头呢?(剧透:反正不是我)。

许多人觉得教学书籍很有用,但我通常不会从头到尾地阅读一本书来学习。我是通过做一个项目,努力的弄清楚一些内容,然后再读另一本书来学习。因此,暂时丢掉书,让我们一起学习 Python。

接下来是我的第一个 Python 爬取项目的指南。它对 Python 和 HTML 的假定知识要求很低。这篇文章旨在说明如何使用 Python 的 requests 库访问网页内容,并使用 BeatifulSoup4 库以及 JSON 和 pandas 库解析网页内容。我将简要介绍 Selenium 库,但我不会深入研究如何使用该库——这个主题值得有自己的教程。最终,我希望向你展示一些技巧和小窍门,以减少网页爬取过程中遇到的问题。

安装依赖

我的 GitHub 存储库 中提供了本指南的所有资源。如果需要安装 Python3 的帮助,请查看 Linux 、 Windows 和 Mac 的教程。

$ python3 -m venv
$ source venv/bin/activate
$ pip install requests bs4 pandas

如果你喜欢使用 JupyterLab ,则可以使用 notebook 运行所有代码。 安装 JupyterLab 有很多方法,这是其中一种:

# from the same virtual environment as above, run:
$ pip install jupyterlab

为网站抓取项目设定目标

现在我们已经安装了依赖项,但是爬取网页需要做什么?

让我们退一步,确保使目标清晰。下面是成功完成网页爬取项目需求列表:

  • 我们收集的信息,是值得我们花大力气去建立一个有效的网页爬取器的。
  • 我们所下载的信息是可以通过网页爬取器合法和道德地收集的。
  • 对如何在 HTML 代码中找到目标信息有一定的了解。
  • 利用恰当的工具:在此情况下,需要使用 BeautifulSoup 库和 requests 库。
  • 知道(或愿意去学习)如何解析 JSON 对象。
  • 有足够的 pandas 数据处理技能。

关于 HTML 的备注:HTML 是运行在互联网上的“猛兽”,但我们最需要了解的是标签的工作方式。标签是一对由尖括号包围关键词(一般成对出现,其内容在两个标签中间)。比如,这是一个假装的标签,称为 pro-tip:

<pro-tip> All you need to know about html is how tags work </pro-tip>

我们可以通过调用标签 pro-tip 来访问其中的信息(All you need to know…)。本教程将进一步介绍如何查找和访问标签。要进一步了解 HTML 基础知识,请查看 本文 。

网站爬取项目中要找的是什么

有些数据利用网站爬取采集比利用其他方法更合适。以下是我认为合适项目的准则:

没有可用于数据(处理)的公共 API。通过 API 抓取结构化数据会容易得多,(所以没有 API )有助于澄清收集数据的合法性和道德性。而有相当数量的结构化数据,并有规律的、可重复的格式,才能证明这种努力的合理性。网页爬取可能会很痛苦。BeautifulSoup(bs4)使操作更容易,但无法避免网站的个别特殊性,需要进行定制。数据的相同格式化不是必须的,但这确实使事情变得更容易。存在的 “边际案例”(偏离规范)越多,爬取就越复杂。

免责声明:我没有参加过法律培训;以下内容无意作为正式的法律建议。

关于合法性,访问大量有价值信息可能令人兴奋,但仅仅因为它是可能的,并不意味着应该这样做。

值得庆幸的是,有一些公共信息可以指导我们的道德规范和网页爬取工具。大多数网站都有与该网站关联的 robots.txt 文件,指出允许哪些爬取活动,哪些不被允许。它主要用于与搜索引擎(网页抓取工具的终极形态)进行交互。然而,网站上的许多信息都被视为公共信息。因此,有人将 robots.txt 文件视为一组建议,而不是具有法律约束力的文档。 robots.txt 文件并不涉及数据的道德收集和使用等主题。

在开始爬取项目之前,问自己以下问题:

  • 我是否在爬取版权材料?
  • 我的爬取活动会危害个人隐私吗?
  • 我是否发送了大量可能会使服务器超载或损坏的请求?
  • 爬取是否会泄露出我不拥有的知识产权?
  • 是否有规范网站使用的服务条款,我是否遵循了这些条款?
  • 我的爬取活动会减少原始数据的价值吗?(例如,我是否打算按原样重新打包数据,或者可能从原始来源中抽取网站流量)?

当我爬取一个网站时,请确保可以对所有这些问题回答 “否”。

要深入了解这些法律问题,请参阅 2018 年出版的 Krotov 和 Silva 撰写的 《Web 爬取的合法性和道德性》 和 Sellars 的 《二十年 Web 爬取和计算机欺诈与滥用法案》 。

现在开始爬取网站

经过上述评估,我想出了一个项目。我的目标是爬取爱达荷州所有 Family Dollar 商店的地址。 这些商店在农村地区规模很大,因此我想了解有多少家这样的商店。

起点是 Family Dollar 的位置页面

利用 Python 爬取网站的新手指南 | Linux 中国

爱达荷州 Family Dollar 所在地页面

首先,让我们在 Python 虚拟环境中加载先决条件。此处的代码将被添加到一个 Python 文件(如果你想要个名称,则为 scraper.py)或在 JupyterLab 的单元格中运行。

import requests # for making standard html requests
from bs4 import BeautifulSoup # magical tool for parsing html data
import json # for parsing data
from pandas import DataFrame as df # premier library for data organization

接下来,我们从目标 URL 中请求数据。

page = requests.get("https://locations.familydollar.com/id/")
soup = BeautifulSoup(page.text, 'html.parser')

BeautifulSoup 将 HTML 或 XML 内容转换为复杂树对象。这是我们将使用的几种常见对象类型。

  • BeautifulSoup —— 解析的内容
  • Tag —— 标准 HTML 标记,这是你将遇到的 bs4 元素的主要类型
  • NavigableString —— 标签内的文本字符串
  • Comment —— NavigableString 的一种特殊类型

当我们查看 requests.get() 输出时,还有更多要考虑的问题。我仅使用 page.text() 将请求的页面转换为可读的内容,但是还有其他输出类型:

  • page.text() 文本(最常见)
  • page.content() 逐字节输出
  • page.json() JSON 对象
  • page.raw() 原始套接字响应(对你没啥用)

我只在使用拉丁字母的纯英语网站上操作。 requests 中的默认编码设置可以很好地解决这一问题。然而,除了纯英语网站之外,就是更大的互联网世界。为了确保 requests 正确解析内容,你可以设置文本的编码:

page = requests.get(URL)
page.encoding = 'ISO-885901'
soup = BeautifulSoup(page.text, 'html.parser')

仔细研究 BeautifulSoup 标签,我们看到:

  • bs4 元素 tag 捕获的是一个 HTML 标记。
  • 它具有名称和属性,可以像字典一样访问:tag['someAttribute']。
  • 如果标签具有相同名称的多个属性,则仅访问第一个实例。
  • 可通过 tag.contents 访问子标签。
  • 所有标签后代都可以通过 tag.contents 访问。
  • 你始终可以使用以下字符串:re.compile("your_string") 访问一个字符串的所有内容,而不是浏览 HTML 树。

确定如何提取相应内容

警告:此过程可能令人沮丧。

网站爬取过程中的提取可能是一个令人生畏的充满了误区的过程。我认为解决此问题的最佳方法是从一个有代表性的示例开始然后进行扩展(此原理对于任何编程任务都是适用的)。查看页面的 HTML 源代码至关重要。有很多方法可以做到这一点。

你可以在终端中使用 Python 查看页面的整个源代码(不建议使用)。运行此代码需要你自担风险:

print(soup.prettify())

虽然打印出页面的整个源代码可能适用于某些教程中显示的玩具示例,但大多数现代网站的页面上都有大量内容。甚至 404 页面也可能充满了页眉、页脚等代码。

通常,在你喜欢的浏览器中通过 “查看页面源代码” 来浏览源代码是最容易的(单击右键,然后选择 “查看页面源代码” )。这是找到目标内容的最可靠方法(稍后我将解释原因)。

利用 Python 爬取网站的新手指南 | Linux 中国

Family Dollar 页面源代码

在这种情况下,我需要在这个巨大的 HTML 海洋中找到我的目标内容 —— 地址、城市、州和邮政编码。通常,对页面源(ctrl+F)的简单搜索就会得到目标位置所在的位置。一旦我实际看到目标内容的示例(至少一个商店的地址),便会找到将该内容与其他内容区分开的属性或标签。

首先,我需要在爱达荷州 Family Dollar 商店中收集不同城市的网址,并访问这些网站以获取地址信息。这些网址似乎都包含在 href 标记中。太棒了!我将尝试使用 find_all 命令进行搜索:

dollar_tree_list = soup.find_all('href')
dollar_tree_list

搜索 href 不会产生任何结果,该死。这可能是因为 href 嵌套在 itemlist 类中而失败。对于下一次尝试,请搜索 item_list。由于 class 是 Python 中的保留字,因此使用 class_ 来作为替代。soup.find_all() 原来是 bs4 函数的瑞士军刀。

dollar_tree_list = soup.find_all(class_ = 'itemlist')
for i in dollar_tree_list[:2]:print(i)

有趣的是,我发现搜索一个特定类的方法一般是一种成功的方法。通过找出对象的类型和长度,我们可以了解更多有关对象的信息。

type(dollar_tree_list)
len(dollar_tree_list)

可以使用 .contents 从 BeautifulSoup “结果集” 中提取内容。这也是创建单个代表性示例的好时机。

example = dollar_tree_list[2] # a representative example
example_content = example.contents
print(example_content)

使用 .attr 查找该对象内容中存在的属性。注意:.contents 通常会返回一个项目的精确的列表,因此第一步是使用方括号符号为该项目建立索引。

example_content = example.contents[0]
example_content.attrs

现在,我可以看到 href 是一个属性,可以像字典项一样提取它:

example_href = example_content['href']
print(example_href)

整合网站抓取工具

所有的这些探索为我们提供了前进的路径。这是厘清上面逻辑的一个清理版本。

city_hrefs = [] # initialise empty listfor i in dollar_tree_list:cont = i.contents[0]href = cont['href']city_hrefs.append(href)#  check to be sure all went well
for i in city_hrefs[:2]:print(i)

输出的内容是一个关于抓取爱达荷州 Family Dollar 商店 URL 的列表。

也就是说,我仍然没有获得地址信息!现在,需要抓取每个城市的 URL 以获得此信息。因此,我们使用一个具有代表性的示例重新开始该过程。

page2 = requests.get(city_hrefs[2]) # again establish a representative example
soup2 = BeautifulSoup(page2.text, 'html.parser')

利用 Python 爬取网站的新手指南 | Linux 中国

Family Dollar 地图和代码

地址信息嵌套在 type="application/ld+json" 里。经过大量的地理位置抓取之后,我开始认识到这是用于存储地址信息的一般结构。幸运的是,soup.find_all() 开启了利用 type 搜索。

arco = soup2.find_all(type="application/ld+json")
print(arco[1])

地址信息在第二个列表成员中!原来如此!

使用 .contents 提取(从第二个列表项中)内容(这是过滤后的合适的默认操作)。同样,由于输出的内容是一个列表,因此我为该列表项建立了索引:

arco_contents = arco[1].contents[0]
arco_contents

喔,看起来不错。此处提供的格式与 JSON 格式一致(而且,该类型的名称中确实包含 “json”)。 JSON 对象的行为就像是带有嵌套字典的字典。一旦你熟悉利用其去工作,它实际上是一种不错的格式(当然,它比一长串正则表达式命令更容易编程)。尽管从结构上看起来像一个 JSON 对象,但它仍然是 bs4 对象,需要通过编程方式转换为 JSON 对象才能对其进行访问:

arco_json =  json.loads(arco_contents)
type(arco_json)
print(arco_json)

在该内容中,有一个被调用的 address 键,该键要求地址信息在一个比较小的嵌套字典里。可以这样检索:

arco_address = arco_json['address']
arco_address

好吧,请大家注意。现在我可以遍历存储爱达荷州 URL 的列表:

locs_dict = [] # initialise empty listfor link in city_hrefs:locpage = requests.get(link)   # request page infolocsoup = BeautifulSoup(locpage.text, 'html.parser')# parse the page's contentlocinfo = locsoup.find_all(type="application/ld+json")# extract specific elementloccont = locinfo[1].contents[0]  # get contents from the bs4 element setlocjson = json.loads(loccont)  # convert to jsonlocaddr = locjson['address'] # get addresslocs_dict.append(locaddr) # add address to list

用 Pandas 整理我们的网站抓取结果

我们在字典中装载了大量数据,但是还有一些额外的无用项,它们会使重用数据变得比需要的更为复杂。要执行最终的数据组织,我们需要将其转换为 Pandas 数据框架,删除不需要的列 @type 和 country,并检查前五行以确保一切正常。

locs_df = df.from_records(locs_dict)
locs_df.drop(['@type', 'addressCountry'], axis = 1, inplace = True)
locs_df.head(n = 5)

确保保存结果!!

df.to_csv(locs_df, "family_dollar_ID_locations.csv", sep = ",", index = False)

我们做到了!所有爱达荷州 Family Dollar 商店都有一个用逗号分隔的列表。多令人兴奋。

Selenium 和数据抓取的一点说明

Selenium 是用于与网页自动交互的常用工具。为了解释为什么有时必须使用它,让我们来看一个使用 Walgreens 网站的示例。 “检查元素” 提供了浏览器显示内容的代码:

利用 Python 爬取网站的新手指南 | Linux 中国

虽然 “查看页面源代码” 提供了有关 requests 将获得什么内容的代码:

利用 Python 爬取网站的新手指南 | Linux 中国

如果这两个不一致,是有一些插件可以修改源代码 —— 因此,应在将页面加载到浏览器后对其进行访问。requests 不能做到这一点,但是 Selenium 可以做到。

Selenium 需要 Web 驱动程序来检索内容。实际上,它会打开 Web 浏览器,并收集此页面的内容。Selenium 功能强大 —— 它可以通过多种方式与加载的内容进行交互(请阅读文档)。使用 Selenium 获取数据后,继续像以前一样使用 BeautifulSoup:

url = "https://www.walgreens.com/storelistings/storesbycity.jsp?requestType=locator&state=ID"
driver = webdriver.Firefox(executable_path = 'mypath/geckodriver.exe')
driver.get(url)
soup_ID = BeautifulSoup(driver.page_source, 'html.parser')
store_link_soup = soup_ID.find_all(class_ = 'col-xl-4 col-lg-4 col-md-4')

对于 Family Dollar 这种情形,我不需要 Selenium,但是当呈现的内容与源代码不同时,我确实会保留使用 Selenium。

小结

总之,使用网站抓取来完成有意义的任务时:

  • 耐心一点
  • 查阅手册(它们非常有帮助)

如果你对答案感到好奇:

利用 Python 爬取网站的新手指南 | Linux 中国

Family Dollar 位置图

美国有很多 Family Dollar 商店。

完整的源代码是:

import requests
from bs4 import BeautifulSoup
import json
from pandas import DataFrame as dfpage = requests.get("https://www.familydollar.com/locations/")
soup = BeautifulSoup(page.text, 'html.parser')# find all state links
state_list = soup.find_all(class_ = 'itemlist')state_links = []for i in state_list:cont = i.contents[0]attr = cont.attrshrefs = attr['href']state_links.append(hrefs)# find all city links
city_links = []for link in state_links:page = requests.get(link)soup = BeautifulSoup(page.text, 'html.parser')familydollar_list = soup.find_all(class_ = 'itemlist')for store in familydollar_list:cont = store.contents[0]attr = cont.attrscity_hrefs = attr['href']city_links.append(city_hrefs)
# to get individual store links
store_links = []for link in city_links:locpage = requests.get(link)locsoup = BeautifulSoup(locpage.text, 'html.parser')locinfo = locsoup.find_all(type="application/ld+json")for i in locinfo:loccont = i.contents[0]locjson = json.loads(loccont)try:store_url = locjson['url']store_links.append(store_url)except:pass# get address and geolocation information
stores = []for store in store_links:storepage = requests.get(store)storesoup = BeautifulSoup(storepage.text, 'html.parser')storeinfo = storesoup.find_all(type="application/ld+json")for i in storeinfo:storecont = i.contents[0]storejson = json.loads(storecont)try:store_addr = storejson['address']store_addr.update(storejson['geo'])stores.append(store_addr)except:pass# final data parsing
stores_df = df.from_records(stores)
stores_df.drop(['@type', 'addressCountry'], axis = 1, inplace = True)
stores_df['Store'] = "Family Dollar"df.to_csv(stores_df, "family_dollar_locations.csv", sep = ",", index = False)

 ① 2000多本Python电子书(主流和经典的书籍应该都有了)

② Python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且经典的练手项目及源码)

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤ Python学习路线图(告别不入流的学习)

python超全资料库安装包学习路线项目源码免费分享

查看全文
如若内容造成侵权/违法违规/事实不符,请联系编程学习网邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

相关文章

  1. 学习C语言——用指针方式比较两个数的大小

    #include <stdio.h> int main() {int *p1, *p2, *p, a, b;printf("Please input two integer numbers:\n");scanf_s("%d,%d", &a, &b);//可以用scanf&#xff0c;因情况而定p1 &a;p2 &b;if (a<b){p p1; p1 p2; p2 p;}printf…...

    2024/5/7 12:59:15
  2. 【spring cloud】动态拉取配置文件

    当我们保存在github上的配置变化以后&#xff0c;config server如果不重启是不会读取变化后的配置的。这个时候我们就需要congi组件提供的另外一个功能&#xff0c;动态刷新。 config组件其实是可以动态刷新的。其中手动刷新的方法&#xff0c;是新建一个客户端config client&a…...

    2024/5/8 5:59:08
  3. 第一篇文章

    【21.11.3.8.21】...

    2024/5/8 3:27:30
  4. Exchange中的ACL利用分析

    0x00 安装Exchange服务器后会添加一个名为Microsoft Exchange Security Groups的OU&#xff0c;这个OU里面有一些权限很高的组。 Exchange Trusted Subsystem Exchange Windows Permission Organization Management 下面仔细分析一下 0x01 High Privilege Groups 首先是Exc…...

    2024/4/15 8:17:33
  5. XTU 1137 字母圣诞树

    #include<stdio.h> int main( ) { int n0; scanf("%d",&n); char a; while(n--) { getchar(); scanf("%c",&a);//这个地方用s都可能BUG int ba-64; b2*b1; int ca-64; …...

    2024/5/7 18:25:35
  6. P0【深度学习】发展历史介绍

    目录 第一代神经网络&#xff08;1958~1969&#xff09; 第二代神经网络&#xff08;1986~1998&#xff09; 统计学习方法的春天&#xff08;1986~2006&#xff09; 第三代神经网络-DL&#xff08;2006-至今&#xff09; 快速发展期&#xff08;2006~2012&#xff09; 爆…...

    2024/5/8 4:09:03
  7. 身份证号码中间位数隐藏

    今天写支付宝小程序遇见一个问题&#xff0c;身份证号需要隐藏&#xff0c;做如下处理&#xff1a; String s "37011219810228316X"; String a ""; if (s.endsWith("X") || s.endsWith("x")){a s.substring(0,1)"***********…...

    2024/4/15 8:17:43
  8. idea2021.2设置eclipse快捷键后提取变量快捷键Alt+shift+L失效

    idea2021.2设置eclipse快捷键后提取变量快捷键AltshiftL失效 如下图&#xff0c;搜索 var&#xff0c;这个快捷键是有配置的&#xff0c;右键删除再添加就会提示你还有其他地方使用这个快捷键&#xff0c;点确认删除就可以了。 先全部删除 AltShiftL 的快捷键 &#xff0c;再重…...

    2024/5/8 6:49:37
  9. OpenCV4 利用inRange()函数提取图片指定HSV范围的颜色区域

    作者&#xff1a;RayChiu_Labloy 版权声明&#xff1a;著作权归作者所有&#xff0c;商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处 目录 背景需求 官方文档给出的inRange函数解释&#xff1a; 代码 实验图片和效果 背景需求 我们最终要提取图片中的指定的…...

    2024/5/7 17:28:48
  10. [PyQt5]基本控件24 - 时间日期编辑框QDateTimeEdit

    文章目录效果图完整代码效果图 完整代码 import sys from PyQt5.QtWidgets import QDateTimeEdit,QVBoxLayout,QWidget,QApplication,QMainWindow from PyQt5.QtCore import QDateTime,QDate,QTimeclass QDateTimeEditDemo(QMainWindow):def __init__(self):super(QDateTimeEd…...

    2024/5/8 4:03:31
  11. 【spring cloud】config server配置

    config组件提供了拉取配置的能力&#xff0c;config的基础是准备一个config server&#xff0c;下面讲一下config server的配置。 1&#xff0c;引入依赖 <!--config server--><dependency><groupId>org.springframework.cloud</groupId><artifact…...

    2024/4/20 5:50:26
  12. Kubernetes 上调试 distroless 容器

    TL;DR 本文内容&#xff1a; 介绍 distroless 镜像、作用以及简单的使用如何针对 distroless 容器的进行调试临时容器(v.1.18)的使用 Distroless 镜像 Distroless 容器&#xff0c;顾名思义使用 Distroless 镜像作为基础镜像运行的容器。 "Distroless" 镜像只包含…...

    2024/5/8 2:26:28
  13. 牛客刷题日记(2021-11-3)

    牛客刷题日记&#xff08;2021-11-3&#xff09; 题目&#xff1a; 下列哪种异常是检查型异常&#xff0c;需要在编写程序时声明 ( ) A.NullPointerException B.ClassCastException C.FileNotFoundException D.IndexOutOfBoundsException解析&#xff1a; 正确答案: C 这里是…...

    2024/4/19 22:24:26
  14. 网络云存储技术Windows server 2012 (项目十七 配置iSCSI传输的安全性)

    网络云存储技术Windows server 2012 &#xff08;项目十七 配置iSCSI传输的安全性&#xff09; 目录前言一、项目背景二、项目实训题三、环境准备四、操作步骤任务1、在存储服务器SRV1的存储池中创建大小为100GB【mirror】类型的虚拟磁盘&#xff0c;并将【mirror】类型虚拟磁盘…...

    2024/5/7 17:13:42
  15. 公司简介公司介绍PPT模板

    模板介绍 精美PPT模板设计&#xff0c;公司简介公司介绍PPT模板。一套企业介绍幻灯片模板&#xff0c;内含灰色多种配色&#xff0c;精美风格设计&#xff0c;动态播放效果&#xff0c;精美实用。 一份设计精美的PPT模板&#xff0c;可以让你在汇报演讲时脱颖而出。 希望下面…...

    2024/5/8 3:42:00
  16. Chrome devtools 打开耗时

    Chrome 的devtools的语言选择"English (UK)"时, 打开会耗时 6秒, 选择 “English (US)” 和 中文, 不会有这个问题...

    2024/4/19 19:53:26
  17. 线程池的应用

    线程池的应用 了解了Java中线程池的基本实现原理后&#xff0c;那么在一些优秀的Java框架中&#xff0c;开发者又是怎么应用线程池的呢&#xff1f; 以Tomcat、dubbo为例&#xff0c;来分析线程池在实际生产中的应用。 Tomcat中的线程池 Tomcat基于自身的业务场景&#xff0c;…...

    2024/5/4 22:46:53
  18. MapJoin

    一、描述 MapJoin顾名思义&#xff0c;就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。 二、使用条件 除了一份表的数据分布在不同的Map中外&#xff0c;其他连接的表的…...

    2024/4/15 8:18:53
  19. 容器技术Docker K8s 52 边缘容器服务(ACK@Edge)-边缘计算和边缘容器

    参考 https://edu.aliyun.com/lesson_2553_27408#_27408...

    2024/4/19 9:06:19
  20. Selenium入门简介

    一、简介 Selenium是ThoughtWorks开发的一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中&#xff0c;就像真正的用户在操作一样。极大的方便了Web应用的自动化测试。支持所有主流的浏览器。这个工具的主要功能包括&#xff1a; 测试与浏览器的兼容性——测试…...

    2024/5/4 17:14:58

最新文章

  1. 【数据库】Elasticsearch的操作

    在关系数据库和Elasticsearch之间&#xff0c;对基本概念和数据结构的理解对于使用两者进行有效的数据操作非常关键。下面是关系数据库和Elasticsearch之间的基本概念比较&#xff0c;包括实际的应用例子&#xff1a; 对比数据库的概念 数据库与索引 关系数据库 在关系数据…...

    2024/5/8 8:07:37
  2. 梯度消失和梯度爆炸的一些处理方法

    在这里是记录一下梯度消失或梯度爆炸的一些处理技巧。全当学习总结了如有错误还请留言&#xff0c;在此感激不尽。 权重和梯度的更新公式如下&#xff1a; w w − η ⋅ ∇ w w w - \eta \cdot \nabla w ww−η⋅∇w 个人通俗的理解梯度消失就是网络模型在反向求导的时候出…...

    2024/5/7 10:36:02
  3. 蓝桥杯加训

    1.两只塔姆沃斯牛&#xff08;模拟&#xff09; 思路&#xff1a;人和牛都记录三个数据&#xff0c;当前坐标和走的方向&#xff0c;如果人和牛的坐标和方向走重复了&#xff0c;那就说明一直在绕圈圈&#xff0c;无解 #include<iostream> using namespace std; const i…...

    2024/5/3 9:22:44
  4. MongoDB聚合运算符:$map

    文章目录 语法举例对数组元素取整将摄氏度转为华氏度 $map聚合运算符将指定的表达式应用于数组元素&#xff0c;对数组每个元素进行计算并返回计算后的数组。 语法 { $map: { input: <expression>, as: <string>, in: <expression> } }参数说明&#xff1a…...

    2024/5/4 21:22:22
  5. 【外汇早评】美通胀数据走低,美元调整

    原标题:【外汇早评】美通胀数据走低,美元调整昨日美国方面公布了新一期的核心PCE物价指数数据,同比增长1.6%,低于前值和预期值的1.7%,距离美联储的通胀目标2%继续走低,通胀压力较低,且此前美国一季度GDP初值中的消费部分下滑明显,因此市场对美联储后续更可能降息的政策…...

    2024/5/8 6:01:22
  6. 【原油贵金属周评】原油多头拥挤,价格调整

    原标题:【原油贵金属周评】原油多头拥挤,价格调整本周国际劳动节,我们喜迎四天假期,但是整个金融市场确实流动性充沛,大事频发,各个商品波动剧烈。美国方面,在本周四凌晨公布5月份的利率决议和新闻发布会,维持联邦基金利率在2.25%-2.50%不变,符合市场预期。同时美联储…...

    2024/5/7 9:45:25
  7. 【外汇周评】靓丽非农不及疲软通胀影响

    原标题:【外汇周评】靓丽非农不及疲软通胀影响在刚结束的周五,美国方面公布了新一期的非农就业数据,大幅好于前值和预期,新增就业重新回到20万以上。具体数据: 美国4月非农就业人口变动 26.3万人,预期 19万人,前值 19.6万人。 美国4月失业率 3.6%,预期 3.8%,前值 3…...

    2024/5/4 23:54:56
  8. 【原油贵金属早评】库存继续增加,油价收跌

    原标题:【原油贵金属早评】库存继续增加,油价收跌周三清晨公布美国当周API原油库存数据,上周原油库存增加281万桶至4.692亿桶,增幅超过预期的74.4万桶。且有消息人士称,沙特阿美据悉将于6月向亚洲炼油厂额外出售更多原油,印度炼油商预计将每日获得至多20万桶的额外原油供…...

    2024/5/7 14:25:14
  9. 【外汇早评】日本央行会议纪要不改日元强势

    原标题:【外汇早评】日本央行会议纪要不改日元强势近两日日元大幅走强与近期市场风险情绪上升,避险资金回流日元有关,也与前一段时间的美日贸易谈判给日本缓冲期,日本方面对汇率问题也避免继续贬值有关。虽然今日早间日本央行公布的利率会议纪要仍然是支持宽松政策,但这符…...

    2024/5/4 23:54:56
  10. 【原油贵金属早评】欧佩克稳定市场,填补伊朗问题的影响

    原标题:【原油贵金属早评】欧佩克稳定市场,填补伊朗问题的影响近日伊朗局势升温,导致市场担忧影响原油供给,油价试图反弹。此时OPEC表态稳定市场。据消息人士透露,沙特6月石油出口料将低于700万桶/日,沙特已经收到石油消费国提出的6月份扩大出口的“适度要求”,沙特将满…...

    2024/5/4 23:55:05
  11. 【外汇早评】美欲与伊朗重谈协议

    原标题:【外汇早评】美欲与伊朗重谈协议美国对伊朗的制裁遭到伊朗的抗议,昨日伊朗方面提出将部分退出伊核协议。而此行为又遭到欧洲方面对伊朗的谴责和警告,伊朗外长昨日回应称,欧洲国家履行它们的义务,伊核协议就能保证存续。据传闻伊朗的导弹已经对准了以色列和美国的航…...

    2024/5/4 23:54:56
  12. 【原油贵金属早评】波动率飙升,市场情绪动荡

    原标题:【原油贵金属早评】波动率飙升,市场情绪动荡因中美贸易谈判不安情绪影响,金融市场各资产品种出现明显的波动。随着美国与中方开启第十一轮谈判之际,美国按照既定计划向中国2000亿商品征收25%的关税,市场情绪有所平复,已经开始接受这一事实。虽然波动率-恐慌指数VI…...

    2024/5/7 11:36:39
  13. 【原油贵金属周评】伊朗局势升温,黄金多头跃跃欲试

    原标题:【原油贵金属周评】伊朗局势升温,黄金多头跃跃欲试美国和伊朗的局势继续升温,市场风险情绪上升,避险黄金有向上突破阻力的迹象。原油方面稍显平稳,近期美国和OPEC加大供给及市场需求回落的影响,伊朗局势并未推升油价走强。近期中美贸易谈判摩擦再度升级,美国对中…...

    2024/5/4 23:54:56
  14. 【原油贵金属早评】市场情绪继续恶化,黄金上破

    原标题:【原油贵金属早评】市场情绪继续恶化,黄金上破周初中国针对于美国加征关税的进行的反制措施引发市场情绪的大幅波动,人民币汇率出现大幅的贬值动能,金融市场受到非常明显的冲击。尤其是波动率起来之后,对于股市的表现尤其不安。隔夜美国股市出现明显的下行走势,这…...

    2024/5/6 1:40:42
  15. 【外汇早评】美伊僵持,风险情绪继续升温

    原标题:【外汇早评】美伊僵持,风险情绪继续升温昨日沙特两艘油轮再次发生爆炸事件,导致波斯湾局势进一步恶化,市场担忧美伊可能会出现摩擦生火,避险品种获得支撑,黄金和日元大幅走强。美指受中美贸易问题影响而在低位震荡。继5月12日,四艘商船在阿联酋领海附近的阿曼湾、…...

    2024/5/4 23:54:56
  16. 【原油贵金属早评】贸易冲突导致需求低迷,油价弱势

    原标题:【原油贵金属早评】贸易冲突导致需求低迷,油价弱势近日虽然伊朗局势升温,中东地区几起油船被袭击事件影响,但油价并未走高,而是出于调整结构中。由于市场预期局势失控的可能性较低,而中美贸易问题导致的全球经济衰退风险更大,需求会持续低迷,因此油价调整压力较…...

    2024/5/4 23:55:17
  17. 氧生福地 玩美北湖(上)——为时光守候两千年

    原标题:氧生福地 玩美北湖(上)——为时光守候两千年一次说走就走的旅行,只有一张高铁票的距离~ 所以,湖南郴州,我来了~ 从广州南站出发,一个半小时就到达郴州西站了。在动车上,同时改票的南风兄和我居然被分到了一个车厢,所以一路非常愉快地聊了过来。 挺好,最起…...

    2024/5/7 9:26:26
  18. 氧生福地 玩美北湖(中)——永春梯田里的美与鲜

    原标题:氧生福地 玩美北湖(中)——永春梯田里的美与鲜一觉醒来,因为大家太爱“美”照,在柳毅山庄去寻找龙女而错过了早餐时间。近十点,向导坏坏还是带着饥肠辘辘的我们去吃郴州最富有盛名的“鱼头粉”。说这是“十二分推荐”,到郴州必吃的美食之一。 哇塞!那个味美香甜…...

    2024/5/4 23:54:56
  19. 氧生福地 玩美北湖(下)——奔跑吧骚年!

    原标题:氧生福地 玩美北湖(下)——奔跑吧骚年!让我们红尘做伴 活得潇潇洒洒 策马奔腾共享人世繁华 对酒当歌唱出心中喜悦 轰轰烈烈把握青春年华 让我们红尘做伴 活得潇潇洒洒 策马奔腾共享人世繁华 对酒当歌唱出心中喜悦 轰轰烈烈把握青春年华 啊……啊……啊 两…...

    2024/5/4 23:55:06
  20. 扒开伪装医用面膜,翻六倍价格宰客,小姐姐注意了!

    原标题:扒开伪装医用面膜,翻六倍价格宰客,小姐姐注意了!扒开伪装医用面膜,翻六倍价格宰客!当行业里的某一品项火爆了,就会有很多商家蹭热度,装逼忽悠,最近火爆朋友圈的医用面膜,被沾上了污点,到底怎么回事呢? “比普通面膜安全、效果好!痘痘、痘印、敏感肌都能用…...

    2024/5/5 8:13:33
  21. 「发现」铁皮石斛仙草之神奇功效用于医用面膜

    原标题:「发现」铁皮石斛仙草之神奇功效用于医用面膜丽彦妆铁皮石斛医用面膜|石斛多糖无菌修护补水贴19大优势: 1、铁皮石斛:自唐宋以来,一直被列为皇室贡品,铁皮石斛生于海拔1600米的悬崖峭壁之上,繁殖力差,产量极低,所以古代仅供皇室、贵族享用 2、铁皮石斛自古民间…...

    2024/5/4 23:55:16
  22. 丽彦妆\医用面膜\冷敷贴轻奢医学护肤引导者

    原标题:丽彦妆\医用面膜\冷敷贴轻奢医学护肤引导者【公司简介】 广州华彬企业隶属香港华彬集团有限公司,专注美业21年,其旗下品牌: 「圣茵美」私密荷尔蒙抗衰,产后修复 「圣仪轩」私密荷尔蒙抗衰,产后修复 「花茵莳」私密荷尔蒙抗衰,产后修复 「丽彦妆」专注医学护…...

    2024/5/4 23:54:58
  23. 广州械字号面膜生产厂家OEM/ODM4项须知!

    原标题:广州械字号面膜生产厂家OEM/ODM4项须知!广州械字号面膜生产厂家OEM/ODM流程及注意事项解读: 械字号医用面膜,其实在我国并没有严格的定义,通常我们说的医美面膜指的应该是一种「医用敷料」,也就是说,医用面膜其实算作「医疗器械」的一种,又称「医用冷敷贴」。 …...

    2024/5/6 21:42:42
  24. 械字号医用眼膜缓解用眼过度到底有无作用?

    原标题:械字号医用眼膜缓解用眼过度到底有无作用?医用眼膜/械字号眼膜/医用冷敷眼贴 凝胶层为亲水高分子材料,含70%以上的水分。体表皮肤温度传导到本产品的凝胶层,热量被凝胶内水分子吸收,通过水分的蒸发带走大量的热量,可迅速地降低体表皮肤局部温度,减轻局部皮肤的灼…...

    2024/5/4 23:54:56
  25. 配置失败还原请勿关闭计算机,电脑开机屏幕上面显示,配置失败还原更改 请勿关闭计算机 开不了机 这个问题怎么办...

    解析如下&#xff1a;1、长按电脑电源键直至关机&#xff0c;然后再按一次电源健重启电脑&#xff0c;按F8健进入安全模式2、安全模式下进入Windows系统桌面后&#xff0c;按住“winR”打开运行窗口&#xff0c;输入“services.msc”打开服务设置3、在服务界面&#xff0c;选中…...

    2022/11/19 21:17:18
  26. 错误使用 reshape要执行 RESHAPE,请勿更改元素数目。

    %读入6幅图像&#xff08;每一幅图像的大小是564*564&#xff09; f1 imread(WashingtonDC_Band1_564.tif); subplot(3,2,1),imshow(f1); f2 imread(WashingtonDC_Band2_564.tif); subplot(3,2,2),imshow(f2); f3 imread(WashingtonDC_Band3_564.tif); subplot(3,2,3),imsho…...

    2022/11/19 21:17:16
  27. 配置 已完成 请勿关闭计算机,win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机...

    win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机”问题的解决方法在win7系统关机时如果有升级系统的或者其他需要会直接进入一个 等待界面&#xff0c;在等待界面中我们需要等待操作结束才能关机&#xff0c;虽然这比较麻烦&#xff0c;但是对系统进行配置和升级…...

    2022/11/19 21:17:15
  28. 台式电脑显示配置100%请勿关闭计算机,“准备配置windows 请勿关闭计算机”的解决方法...

    有不少用户在重装Win7系统或更新系统后会遇到“准备配置windows&#xff0c;请勿关闭计算机”的提示&#xff0c;要过很久才能进入系统&#xff0c;有的用户甚至几个小时也无法进入&#xff0c;下面就教大家这个问题的解决方法。第一种方法&#xff1a;我们首先在左下角的“开始…...

    2022/11/19 21:17:14
  29. win7 正在配置 请勿关闭计算机,怎么办Win7开机显示正在配置Windows Update请勿关机...

    置信有很多用户都跟小编一样遇到过这样的问题&#xff0c;电脑时发现开机屏幕显现“正在配置Windows Update&#xff0c;请勿关机”(如下图所示)&#xff0c;而且还需求等大约5分钟才干进入系统。这是怎样回事呢&#xff1f;一切都是正常操作的&#xff0c;为什么开时机呈现“正…...

    2022/11/19 21:17:13
  30. 准备配置windows 请勿关闭计算机 蓝屏,Win7开机总是出现提示“配置Windows请勿关机”...

    Win7系统开机启动时总是出现“配置Windows请勿关机”的提示&#xff0c;没过几秒后电脑自动重启&#xff0c;每次开机都这样无法进入系统&#xff0c;此时碰到这种现象的用户就可以使用以下5种方法解决问题。方法一&#xff1a;开机按下F8&#xff0c;在出现的Windows高级启动选…...

    2022/11/19 21:17:12
  31. 准备windows请勿关闭计算机要多久,windows10系统提示正在准备windows请勿关闭计算机怎么办...

    有不少windows10系统用户反映说碰到这样一个情况&#xff0c;就是电脑提示正在准备windows请勿关闭计算机&#xff0c;碰到这样的问题该怎么解决呢&#xff0c;现在小编就给大家分享一下windows10系统提示正在准备windows请勿关闭计算机的具体第一种方法&#xff1a;1、2、依次…...

    2022/11/19 21:17:11
  32. 配置 已完成 请勿关闭计算机,win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机”的解决方法...

    今天和大家分享一下win7系统重装了Win7旗舰版系统后&#xff0c;每次关机的时候桌面上都会显示一个“配置Windows Update的界面&#xff0c;提示请勿关闭计算机”&#xff0c;每次停留好几分钟才能正常关机&#xff0c;导致什么情况引起的呢&#xff1f;出现配置Windows Update…...

    2022/11/19 21:17:10
  33. 电脑桌面一直是清理请关闭计算机,windows7一直卡在清理 请勿关闭计算机-win7清理请勿关机,win7配置更新35%不动...

    只能是等着&#xff0c;别无他法。说是卡着如果你看硬盘灯应该在读写。如果从 Win 10 无法正常回滚&#xff0c;只能是考虑备份数据后重装系统了。解决来方案一&#xff1a;管理员运行cmd&#xff1a;net stop WuAuServcd %windir%ren SoftwareDistribution SDoldnet start WuA…...

    2022/11/19 21:17:09
  34. 计算机配置更新不起,电脑提示“配置Windows Update请勿关闭计算机”怎么办?

    原标题&#xff1a;电脑提示“配置Windows Update请勿关闭计算机”怎么办&#xff1f;win7系统中在开机与关闭的时候总是显示“配置windows update请勿关闭计算机”相信有不少朋友都曾遇到过一次两次还能忍但经常遇到就叫人感到心烦了遇到这种问题怎么办呢&#xff1f;一般的方…...

    2022/11/19 21:17:08
  35. 计算机正在配置无法关机,关机提示 windows7 正在配置windows 请勿关闭计算机 ,然后等了一晚上也没有关掉。现在电脑无法正常关机...

    关机提示 windows7 正在配置windows 请勿关闭计算机 &#xff0c;然后等了一晚上也没有关掉。现在电脑无法正常关机以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容&#xff0c;让我们赶快一起来看一下吧&#xff01;关机提示 windows7 正在配…...

    2022/11/19 21:17:05
  36. 钉钉提示请勿通过开发者调试模式_钉钉请勿通过开发者调试模式是真的吗好不好用...

    钉钉请勿通过开发者调试模式是真的吗好不好用 更新时间:2020-04-20 22:24:19 浏览次数:729次 区域: 南阳 > 卧龙 列举网提醒您:为保障您的权益,请不要提前支付任何费用! 虚拟位置外设器!!轨迹模拟&虚拟位置外设神器 专业用于:钉钉,外勤365,红圈通,企业微信和…...

    2022/11/19 21:17:05
  37. 配置失败还原请勿关闭计算机怎么办,win7系统出现“配置windows update失败 还原更改 请勿关闭计算机”,长时间没反应,无法进入系统的解决方案...

    前几天班里有位学生电脑(windows 7系统)出问题了&#xff0c;具体表现是开机时一直停留在“配置windows update失败 还原更改 请勿关闭计算机”这个界面&#xff0c;长时间没反应&#xff0c;无法进入系统。这个问题原来帮其他同学也解决过&#xff0c;网上搜了不少资料&#x…...

    2022/11/19 21:17:04
  38. 一个电脑无法关闭计算机你应该怎么办,电脑显示“清理请勿关闭计算机”怎么办?...

    本文为你提供了3个有效解决电脑显示“清理请勿关闭计算机”问题的方法&#xff0c;并在最后教给你1种保护系统安全的好方法&#xff0c;一起来看看&#xff01;电脑出现“清理请勿关闭计算机”在Windows 7(SP1)和Windows Server 2008 R2 SP1中&#xff0c;添加了1个新功能在“磁…...

    2022/11/19 21:17:03
  39. 请勿关闭计算机还原更改要多久,电脑显示:配置windows更新失败,正在还原更改,请勿关闭计算机怎么办...

    许多用户在长期不使用电脑的时候&#xff0c;开启电脑发现电脑显示&#xff1a;配置windows更新失败&#xff0c;正在还原更改&#xff0c;请勿关闭计算机。。.这要怎么办呢&#xff1f;下面小编就带着大家一起看看吧&#xff01;如果能够正常进入系统&#xff0c;建议您暂时移…...

    2022/11/19 21:17:02
  40. 还原更改请勿关闭计算机 要多久,配置windows update失败 还原更改 请勿关闭计算机,电脑开机后一直显示以...

    配置windows update失败 还原更改 请勿关闭计算机&#xff0c;电脑开机后一直显示以以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容&#xff0c;让我们赶快一起来看一下吧&#xff01;配置windows update失败 还原更改 请勿关闭计算机&#x…...

    2022/11/19 21:17:01
  41. 电脑配置中请勿关闭计算机怎么办,准备配置windows请勿关闭计算机一直显示怎么办【图解】...

    不知道大家有没有遇到过这样的一个问题&#xff0c;就是我们的win7系统在关机的时候&#xff0c;总是喜欢显示“准备配置windows&#xff0c;请勿关机”这样的一个页面&#xff0c;没有什么大碍&#xff0c;但是如果一直等着的话就要两个小时甚至更久都关不了机&#xff0c;非常…...

    2022/11/19 21:17:00
  42. 正在准备配置请勿关闭计算机,正在准备配置windows请勿关闭计算机时间长了解决教程...

    当电脑出现正在准备配置windows请勿关闭计算机时&#xff0c;一般是您正对windows进行升级&#xff0c;但是这个要是长时间没有反应&#xff0c;我们不能再傻等下去了。可能是电脑出了别的问题了&#xff0c;来看看教程的说法。正在准备配置windows请勿关闭计算机时间长了方法一…...

    2022/11/19 21:16:59
  43. 配置失败还原请勿关闭计算机,配置Windows Update失败,还原更改请勿关闭计算机...

    我们使用电脑的过程中有时会遇到这种情况&#xff0c;当我们打开电脑之后&#xff0c;发现一直停留在一个界面&#xff1a;“配置Windows Update失败&#xff0c;还原更改请勿关闭计算机”&#xff0c;等了许久还是无法进入系统。如果我们遇到此类问题应该如何解决呢&#xff0…...

    2022/11/19 21:16:58
  44. 如何在iPhone上关闭“请勿打扰”

    Apple’s “Do Not Disturb While Driving” is a potentially lifesaving iPhone feature, but it doesn’t always turn on automatically at the appropriate time. For example, you might be a passenger in a moving car, but your iPhone may think you’re the one dri…...

    2022/11/19 21:16:57