91av视频/亚洲h视频/操亚洲美女/外国一级黄色毛片 - 国产三级三级三级三级

  • 大小: 7.12MB
    文件類型: .zip
    金幣: 2
    下載: 0 次
    發(fā)布日期: 2023-09-23
  • 語言: 其他
  • 標簽: spark??dataframe??python??

資源簡介

現(xiàn)有某地區(qū)出租車 GPS 定位數據 taxi.csv 數據一共分為 4 列,每一列含義如下表所示: 編號(id) 緯度(lat) 經度(lon) 時間戳(time) 根據上述條件,結合課堂上學習的“DataFrame的常用操作”相關知識,編寫代碼實現(xiàn)如下要求: 1、查詢編號為 5 的出租車的 GPS 數據的前 10 行。 2、統(tǒng)計出租車的總數有多少。 分別統(tǒng)計每輛出租車的 GPS 點記錄有多少條。

資源截圖

代碼片段和文件信息

from?pyspark.shell?import?sc
from?pyspark.sql.types?import?*
#
rdd?=sc.textFile(“xxxx/taxi.csv“)
rdd1?=?rdd.map(lambda?line:line.split(““)).map(lambda?x:tuple(x))
schema?=?StructType([StructField(“id“StringType()True)StructField(“l(fā)at“StringType()True)StructField(“l(fā)on“StringType()True)StructField(“time“StringType()True)])
df?=?rdd1.toDF(schema)

#?df.filter(“id==5“).show(10)
df=?df.withColumn(“id“?df[“id“].cast(IntegerType()))
df1?=df.select(“id“).distinct().count()
#?print(df1)
df2=df.groupBy(“id“).count()
df3?=?df2.orderBy(“id“)
df3.show(df1)
#?df.show()

?屬性????????????大小?????日期????時間???名稱
-----------?---------??----------?-----??----
?????文件????26476814??2019-05-15?02:46??taxi.csv
?????文件?????????589??2019-05-16?00:54??taxi.py

評論

共有 條評論